由 使用的特殊参数AWS Glue - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

由 使用的特殊参数AWS Glue

AWS Glue 可识别多个参数名称,这些参数名称可用于设置作业和作业运行的脚本环境:

  • --job-language – 脚本编程语言。此值必须为 scalapython...如果此参数不存在,默认值为 python.

  • --class – 用作 Scala 脚本之入口点的 Scala 类。仅在您的 --job-language 设置为 scala.

  • --scriptLocation — Amazon Simple Storage Service (Amazon S3)ETL脚本位置(以表格形式) s3://path/to/my/script.py)。此参数会覆盖 JobCommand 对象中设置的脚本位置。

  • --extra-py-files — Amazon S3 其他Python模块的路径 AWS Glue 在执行脚本之前添加到Python路径。多个值必须是以逗号 () 分隔的完整路径。,). 仅支持单个文件而不是目录路径。目前,仅纯 Python 模块正常工作。不支持使用 C 或其他语言编写的扩展模块。

  • --extra-jars — Amazon S3 其他Java的路径 .jar 文件 AWS Glue 在执行脚本之前添加到Java克隆。多个值必须是以逗号 () 分隔的完整路径。,).

  • --extra-files — Amazon S3 其他文件的路径,例如配置文件 AWS Glue 在执行之前,拷贝到脚本的工作目录。多个值必须是以逗号 () 分隔的完整路径。,). 仅支持单个文件而不是目录路径。

  • --cacert-urls —.用于专用CA证书位置的逗号分隔的AmazonS3URL列表。

  • --job-bookmark-option – 控制作业书签的行为。可以设置以下选项值。

    ‑‑job‑bookmark‑option 值 Description
    job-bookmark-enable 追踪以前处理数据。当作业运行时,处理自上一个检查点以来的新数据。
    job-bookmark-disable 始终处理整个数据集。您负责管理上一个作业运行的输出。
    job-bookmark-pause 处理上次成功运行以来的增量数据或以下子选项标识的范围内的数据,但不更新最后一个书签的状态。您负责管理上一个作业运行的输出。这两个子选项的说明如下:
    • job-bookmark-from <from-value> 是运行 ID,它表示在最后一次成功运行之前所处理的所有输入,包括指定的运行 ID。对应的输入将被忽略。

    • job-bookmark-to <to-value> 是运行 ID,它表示在最后一次成功运行之前所处理的所有输入,包括指定的运行 ID。作业会处理对应的输入(不包括由 <from-value> 标识的输入)。任何晚于此输入的输入也会被排除在外,不进行处理。

    指定此选项集时,作业书签状态不更新。

    子选项是可选的。但是,在使用时,必须提供两个子选项。

    例如,要启用作业书签,请传递以下参数。

    '--job-bookmark-option': 'job-bookmark-enable'
  • --TempDir —指定 Amazon S3 可用作作业临时目录的一个桶路径。

    例如,要设置临时目录,请传递以下参数。

    '--TempDir': 's3-path-to-directory'
  • --enable-s3-parquet-optimized-committer — 启用经 EMRFS S3 优化的提交程序,用于将 Parquet 数据写入 。Amazon S3. 您可以通过 AWS Glue 创建或更新 AWS Glue 工作。将值设置为 true 将启用提交程序。默认情况下,该标志处于关闭状态。

    有关详细信息,请参阅 使用EMRFSS3优化的承诺人.

  • --enable-rename-algorithm-v2 —将EMRFS重命名算法版本设置为2版本。当火花作业使用动态分区覆盖模式时,会创建一个重复分区。例如,您可以使用重复分区,例如 s3://bucket/table/location/p1=1/p1=1...在这里,P1是被覆盖的分区。重命名算法版本2修复此问题。

    此选项仅适用于胶粘版本1.0。

  • --enable-glue-datacatalog - 使您能够使用 AWS Glue 数据目录 作为 Apache Spark Hive 元存储。

  • --enable-metrics – 为此作业运行启用作业分析指标的集合。这些度量标准可在 AWS Glue 控制台和 Amazon CloudWatch 控制台。要启用指标,仅指定键;无需任何值。

  • --enable-continuous-cloudwatch-log - 允许对 AWS Glue 作业进行实时的连续日志记录。您可以查看 中的实时 Apache Spark 作业日志。CloudWatch.

  • --enable-continuous-log-filter —指定标准过滤器(true)或无过滤器(false)创建或编辑为连续记录启用的作业时。选择标准筛选器可筛选掉无用的 Apache Spark 驱动程序/执行程序和 Apache Hadoop YARN 检测信号日志消息。选择无筛选器可提供所有日志消息。

  • --continuous-log-logGroup - 为已启用连续日志记录的作业指定自定义 Amazon CloudWatch 日志组名称。

  • --continuous-log-logStreamPrefix - 为已启用连续日志记录的作业指定自定义 CloudWatch 日志流前缀。

  • --continuous-log-conversionPattern — 为已启用连续日志记录的作业指定自定义转换日志模式。转换模式仅适用于驱动程序日志和执行程序日志。它不会影响 AWS Glue 进度条。

例如,以下是运行作业的语法与 -- 参数和一个特殊参数。

$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py"'

以下是绝不应设置的 AWS Glue 在内部使用的几个参数名称:

  • --conf - 供 内部使用。AWS Glue. 请勿设置。

  • --debug - 供 内部使用。AWS Glue. 请勿设置。

  • --mode - 供 内部使用。AWS Glue. 请勿设置。

  • --JOB_NAME - 供 内部使用。AWS Glue. 请勿设置。