DynamicFrameReader 类 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

DynamicFrameReader 类

 — 方法 —

__init__

__init__(glue_context)

from_rdd

from_rdd(data, name, schema=None, sampleRatio=None)

从弹性分布式数据集 (RDD) 读取 DynamicFrame

  • data – 要从中读取的数据集。

  • name – 要从中读取的名称。

  • schema – 要读取的架构(可选)。

  • sampleRatio – 采样率(可选)。

from_options

from_options(connection_type, connection_options={}, format=None, format_options={}, transformation_ctx="")

使用指定的连接和格式读取 DynamicFrame

  • connection_type – 连接类型。有效值包括 s3mysqlpostgresqlredshiftsqlserveroracledynamodb

  • connection_options – 连接选项,例如路径和数据库表(可选)。对于 s3connection_type,Amazon S3 路径在数组中定义。

    connection_options = {"paths": [ "s3://mybucket/object_a", "s3://mybucket/object_b"]}

    对于 JDBC 连接,必须定义多个属性。请注意,数据库名称必须是 URL 的一部分。它可以选择性地包含在连接选项中。

    connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path"}

    对于执行并行读取的 JDBC 连接,您可以设置 hashfield 选项。例如:

    connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path" , "hashfield": "month"}

    有关更多信息,请参阅从 JDBC 表并行读取

  • format – 格式规范(可选)。这用于 Amazon Simple Storage Service (Amazon S3) 或支持多种格式的 AWS Glue 连接。有关支持的格式,请参阅 中的 ETL 输入和输出的格式选项AWS Glue

  • format_options – 指定格式的格式选项。有关支持的格式,请参阅 中的 ETL 输入和输出的格式选项AWS Glue

  • transformation_ctx – 要使用的转换上下文(可选)。

from_catalog

from_catalog(name_space, table_name, redshift_tmp_dir="", transformation_ctx="", push_down_predicate="", additional_options={})

使用指定的目录命名空间和表名称读取 DynamicFrame

  • name_space – 要从中进行读取的数据库。

  • table_name – 要从中进行读取的表的名称。

  • redshift_tmp_dir – 要使用的 Amazon Redshift 临时目录(如果不从 Redshift 中读取数据,则此项是可选的)。

  • transformation_ctx – 要使用的转换上下文(可选)。

  • push_down_predicate – 筛选分区,而不必列出并读取数据集中的所有文件。有关更多信息,请参阅使用下推谓词进行预筛选

  • additional_options – 提供给 AWS Glue 的额外选项。要使用执行并行读取的 JDBC 连接,您可以设置 hashfieldhashexpressionhashpartitions 选项。例如:

    additional_options = {"hashfield": "month"}

    有关更多信息,请参阅从 JDBC 表并行读取