可视化任务 API - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

可视化任务 API

可视化任务 API 允许您使用表示 ‭Amazon Glue‬ 任务的可视化配置的 JSON 对象中 Amazon Glue API 的创建数据集成任务。

提供了一系列 CodeGenConfigurationNodes,用于创建或更新任务 API,以在 Amazon Glue Studio 中为已创建的任务注册 DAG,并生成关联的代码。

数据类型

CodeGenConfigurationNode 结构

CodeGenConfigurationNode 枚举全部有效的节点类型。可以填充其中一个成员变量,并且只能填充一个。

字段

  • AthenaConnectorSource – 一个 AthenaConnectorSource 对象。

    指定一个指向 Amazon Athena 数据源的连接器。

  • JDBCConnectorSource – 一个 JDBCConnectorSource 对象。

    指定一个指向 JDBC 数据源的连接器。

  • SparkConnectorSource – 一个 SparkConnectorSource 对象。

    指定一个指向 Apache Spark 数据源的连接器。

  • CatalogSource – 一个 CatalogSource 对象。

    指定 Amazon Glue 数据目录中的一个数据存储。

  • RedshiftSource – 一个 RedshiftSource 对象。

    指定一个 Amazon Redshift 数据存储。

  • S3CatalogSource – 一个 S3CatalogSource 对象。

    指定 Amazon Glue 数据目录中的一个 Amazon S3 数据存储。

  • S3CsvSource – 一个 S3CsvSource 对象。

    指定一个存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。

  • S3JsonSource – 一个 S3JsonSource 对象。

    指定一个存储在 Amazon S3 中的 JSON 数据存储。

  • S3ParquetSource – 一个 S3ParquetSource 对象。

    指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。

  • RelationalCatalogSource – 一个 RelationalCatalogSource 对象。

    指定 Amazon Glue 数据目录中的一个关系数据源。

  • DynamoDBCatalogSource – 一个 DynamoDBCatalogSource 对象。

    指定 Amazon Glue 数据目录中的一个 DynamoDB 数据源。

  • JDBCConnectorTarget – 一个 JDBCConnectorTarget 对象。

    指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

  • SparkConnectorTarget – 一个 SparkConnectorTarget 对象。

    指定一个使用 Apache Spark 连接器的目标。

  • CatalogTarget – 一个 BasicCatalogTarget 对象。

    指定一个使用 Amazon Glue 数据目录表的目标。

  • RedshiftTarget – 一个 RedshiftTarget 对象。

    指定一个使用 Amazon Redshift 的目标。

  • S3CatalogTarget – 一个 S3CatalogTarget 对象。

    指定一个使用 Amazon Glue 数据目录写入 Amazon S3 的数据目标。

  • S3GlueParquetTarget – 一个 S3GlueParquetTarget 对象。

    指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

  • S3DirectTarget – 一个 S3DirectTarget 对象。

    指定一个写入 Amazon S3 的数据目标。

  • ApplyMapping – 一个 ApplyMapping 对象。

    指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。

  • SelectFields – 一个 SelectFields 对象。

    指定一个选择要保留的数据属性键的转换。

  • DropFields – 一个 DropFields 对象。

    指定一个选择要删除的数据属性键的转换。

  • RenameField – 一个 RenameField 对象。

    指定一个重命名单个数据属性键的转换。

  • Spigot – 一个 Spigot 对象。

    指定一个将数据样本写入 Amazon S3 存储桶的转换。

  • Join – 一个 Join 对象。

    指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。

  • SplitFields – 一个 SplitFields 对象。

    指定一个将数据属性键拆分为两个 DynamicFrames 的转换。输出是 DynamicFrames 的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。

  • SelectFromCollection – 一个 SelectFromCollection 对象。

    指定一个从 DynamicFrames 的集合中选择一个 DynamicFrame 的转换。输出是选定的 DynamicFrame

  • FillMissingValues – 一个 FillMissingValues 对象。

    指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。

  • Filter – 一个 筛选条件 对象。

    指定一个转换,它将基于筛选条件将一个数据集拆分为两个。

  • CustomCode – 一个 CustomCode 对象。

    指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是 DynamicFrames 的集合。

  • SparkSQL – 一个 SparkSQL 对象。

    指定一个转换,您可以在其中使用 Spark SQL 语法输入 SQL 查询以转换数据。输出为单个 DynamicFrame

  • DirectKinesisSource – 一个 DirectKinesisSource 对象。

    指定一个直接 Amazon Kinesis 数据源。

  • DirectKafkaSource – 一个 DirectKafkaSource 对象。

    指定一个 Apache Kafka 数据存储。

  • CatalogKinesisSource – 一个 CatalogKinesisSource 对象。

    指定 Amazon Glue 数据目录中的一个 Kinesis 数据源。

  • CatalogKafkaSource – 一个 CatalogKafkaSource 对象。

    指定数据目录中的一个 Apache Kafka 数据存储。

  • DropNullFields – 一个 DropNullFields 对象。

    指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。预设情况下,Amazon Glue Studio 将识别 null 对象,但是某些值,如空字符串、“null”字符串、-1 整数或其他占位符(如零),不会被自动识别为 null。

  • Merge – 一个 Merge 对象。

    指定一个转换,它将基于指定的主键将 DynamicFrame 与暂存 DynamicFrame 合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。

  • Union – 一个 Union 对象。

    指定一个转换,它将两个或更多数据集中的行合并到单个结果中。

  • PIIDetection – 一个 PIIDetection 对象。

    指定用于识别、删除或掩盖 PII 数据的转换。

  • Aggregate – 一个 聚合 对象。

    指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。

  • DropDuplicates – 一个 DropDuplicates 对象。

    指定一个用于从数据集中删除重复数据行的转换。

  • GovernedCatalogTarget – 一个 GovernedCatalogTarget 对象。

    指定一个用于写入监管目录的数据目标。

  • GovernedCatalogSource – 一个 GovernedCatalogSource 对象。

    指定监管数据目录中的一个数据源。

  • MicrosoftSQLServerCatalogSource – 一个 MicrosoftSQLServerCatalogSource 对象。

    在 Amazon Glue 数据目录中指定一个 Microsoft SQL Server 数据源。

  • MySQLCatalogSource – 一个 MySQLCatalogSource 对象。

    指定 Amazon Glue 数据目录中的一个 MySQL 数据源。

  • OracleSQLCatalogSource – 一个 OracleSQLCatalogSource 对象。

    指定 Amazon Glue 数据目录中的一个 Oracle 数据源。

  • PostgreSQLCatalogSource – 一个 PostgreSQLCatalogSource 对象。

    指定 Amazon Glue 数据目录中的一个 PostgresSQL 数据源。

  • MicrosoftSQLServerCatalogTarget – 一个 MicrosoftSQLServerCatalogTarget 对象。

    指定一个使用 Microsoft SQL 的目标。

  • MySQLCatalogTarget – 一个 MySQLCatalogTarget 对象。

    指定一个使用 MySQL 的目标。

  • OracleSQLCatalogTarget – 一个 OracleSQLCatalogTarget 对象。

    指定一个使用 Oracle SQL 的目标。

  • PostgreSQLCatalogTarget – 一个 PostgreSQLCatalogTarget 对象。

    指定一个使用 Postgres SQL 的目标。

JDBCConnectoOptions 结构

用于连接器的其他连接选项。

字段

  • FilterPredicate – UTF-8 字符串,与 Custom string pattern #30 匹配。

    用于筛选源中的数据的额外条件子句。例如:

    BillingCity='Mountain View'

    使用查询(而不是表名称)时,您应验证查询是否适用于指定的 filterPredicate

  • PartitionColumn – UTF-8 字符串,与 Custom string pattern #30 匹配。

    用于分区的整数列的名称。此选项仅在包含 lowerBoundupperBoundnumPartitions 时有效。此选项的工作方式与 Spark SQL JDBC 阅读器中的工作方式相同。

  • LowerBound – 数字(长型),至多为“无”。

    用于确定分区步长的最小 partitionColumn 值。

  • UpperBound – 数字(长型),至多为“无”。

    用于确定分区步长的最大 partitionColumn 值。

  • NumPartitions – 数字(长型),至多为“无”。

    分区的数量。此值以及 lowerBound(包含)和 upperBound(排除)为用于拆分 partitionColumn 而生成的 WHERE 子句表达式构成分区步长。

  • JobBookmarkKeys – UTF-8 字符串数组。

    要作为排序依据的任务书签键的名称。

  • JobBookmarkKeysSortOrder – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定升序或降序排序顺序。

  • DataTypeMapping – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串(有效值:ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR)。

    每个值都是一个 UTF-8字符串(有效值:DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE)。

    用于构建从 JDBC 数据类型到 Amazon Glue 数据类型的映射的自定义数据类型映射。例如,选项 "dataTypeMapping":{"FLOAT":"STRING"} 会通过调用驱动程序的 ResultSet.getString() 方法,将 JDBC 类型 FLOAT 的数据字段映射到 Java String 类型,并将其用于构建 Amazon Glue 记录。ResultSet 对象由每个驱动程序实现,因此行为特定于您使用的驱动程序。请参阅 JDBC 驱动程序的文档,了解驱动程序执行转换的方式。

StreamingDataPreviewOptions 结构

指定与用于查看数据样本的数据预览相关的选项。

字段

  • PollingTime – 数字(长度),至少为 10。

    轮询时间(以毫秒为单位)。

  • RecordPollingLimit – 数字(长度),至少为 1。

    已轮询的记录的数量限制。

AthenaConnectorSource 结构

指定一个指向 Amazon Athena 数据源的连接器。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据源的名称。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    与连接器关联的连接的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    协助访问 Amazon Glue Studio 中的数据存储的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定指向 Amazon Athena 数据存储的连接的连接类型,如 marketplace.athena 或 custom.athena。

  • ConnectionTable – UTF-8 字符串,与 Custom string pattern #31 匹配。

    数据源中的表的名称。

  • SchemaName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的 CloudWatch 日志组的名称。例如:/aws-glue/jobs/output

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 Athena 源的数据架构。

JDBCConnectorSource 结构

指定一个指向 JDBC 数据源的连接器。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据源的名称。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    与连接器关联的连接的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    协助访问 Amazon Glue Studio 中的数据存储的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定指向 JDBC 数据存储的连接的连接类型,如 marketplace.jdbc 或 custom.jdbc。

  • AdditionalOptions – 一个 JDBCConnectorOptions 对象。

    用于连接器的其他连接选项。

  • ConnectionTable – UTF-8 字符串,与 Custom string pattern #31 匹配。

    数据源中的表的名称。

  • Query – UTF-8 字符串,与 Custom string pattern #32 匹配。

    从中获取数据的表或 SQL 查询。您可以指定 ConnectionTablequery,但不能同时指定两者。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 JDBC 源的数据架构。

SparkConnectorSource 结构

指定一个指向 Apache Spark 数据源的连接器。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据源的名称。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    与连接器关联的连接的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    协助访问 Amazon Glue Studio 中的数据存储的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #30 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #30 匹配。

    用于连接器的其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 Spark 源的数据架构。

CatalogSource 结构

指定 Amazon Glue 数据目录中的一个数据存储。

字段

MySQLCatalogSource 结构

指定 Amazon Glue 数据目录中的一个 MySQL 数据源。

字段

PostgreSQLCatalogSource 结构

指定 Amazon Glue 数据目录中的一个 PostgresSQL 数据源。

字段

OracleSQLCatalogSource 结构

指定 Amazon Glue 数据目录中的一个 Oracle 数据源。

字段

MicrosoftSQLServerCatalogSource 结构

在 Amazon Glue 数据目录中指定一个 Microsoft SQL Server 数据源。

字段

CatalogKinesisSource 结构

指定 Amazon Glue 数据目录中的一个 Kinesis 数据源。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据源的名称。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库的名称。

  • StreamingOptions – 一个 KinesisStreamingSourceOptions 对象。

    用于 Kinesis 串流数据源的其他选项。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    用于数据预览的其他选项。

DirectKinesisSource 结构

指定一个直接 Amazon Kinesis 数据源。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据源的名称。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • StreamingOptions – 一个 KinesisStreamingSourceOptions 对象。

    用于 Kinesis 串流数据源的其他选项。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    用于数据预览的其他选项。

KinesisStreamingSourceOptions 结构

用于 Amazon Kinesis 串流数据源的其他选项。

字段

  • EndpointUrl – UTF-8 字符串,与 Custom string pattern #30 匹配。

    Kinesis 端点的 URL。

  • StreamName – UTF-8 字符串,与 Custom string pattern #30 匹配。

    Kinesis 数据流的名称。

  • Classification – UTF-8 字符串,与 Custom string pattern #30 匹配。

    一个可选分类。

  • Delimiter – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定分隔符。

  • StartingPosition – UTF-8 字符串(有效值:latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST")。

    要从中读取数据的 Kinesis 数据流中的起始位置。可能的值为 "latest""trim_horizon""earliest"。原定设置值为 "latest"

  • MaxFetchTimeInMs – 数字(长型),至多为“无”。

    任务执行程序从每个分片的 Kinesis 数据流中获取记录所花费的最长时间,以毫秒为单位指定。原定设置值为 1000

  • MaxFetchRecordsPerShard – 数字(长型),至多为“无”。

    Kinesis 数据流中每个分片要获取的最大记录数。原定设置值为 100000

  • MaxRecordPerRead – 数字(长型),至多为“无”。

    每项 getRecords 操作中要从 Kinesis 数据流获取的最大记录数。原定设置值为 10000

  • AddIdleTimeBetweenReads – 布尔值。

    在两项连续 getRecords 操作之间添加时间延迟。原定设置值为 "False"。此选项仅适用于 Glue 版本 2.0 及更高版本。

  • IdleTimeBetweenReadsInMs – 数字(长型),至多为“无”。

    两项连续 getRecords 操作之间的最短时间延迟,以毫秒为单位指定。原定设置值为 1000。此选项仅适用于 Glue 版本 2.0 及更高版本。

  • DescribeShardInterval – 数字(长型),至多为“无”。

    两次 ListShards API 调用之间的最短时间间隔,供您的脚本考虑重新分区。原定设置值为 1s

  • NumRetries – 数字(整数),至多为“无”。

    Kinesis Data Streams API 请求的最大重试次数。原定设置值为 3

  • RetryIntervalMs – 数字(长型),至多为“无”。

    重试 Kinesis Data Streams API 调用之前的冷却时间(以毫秒为单位指定)。原定设置值为 1000

  • MaxRetryIntervalMs – 数字(长型),至多为“无”。

    Kinesis Data Streams API 调用的两次重试之间的最长冷却时间(以毫秒为单位指定)。原定设置值为 10000

  • AvoidEmptyBatches – 布尔值。

    在批处理开始之前检查 Kinesis 数据流中是否有未读数据,避免创建空白微批处理任务。原定设置值为 "False"

  • StreamArn – UTF-8 字符串,与 Custom string pattern #30 匹配。

    Kinesis 数据流的 Amazon Resource Name (ARN)。

  • RoleArn – UTF-8 字符串,与 Custom string pattern #30 匹配。

    要使用 AWS Security Token Service (AWS STS) 代入的角色的 Amazon Resource Name (ARN)。此角色必须拥有针对 Kinesis 数据流执行描述或读取记录操作的权限。在访问其他账户中的数据流时,必须使用此参数。与 "awsSTSSessionName" 结合使用。

  • RoleSessionName – UTF-8 字符串,与 Custom string pattern #30 匹配。

    使用 AWS STS 代入角色的会话的标识符。在访问其他账户中的数据流时,必须使用此参数。与 "awsSTSRoleARN" 结合使用。

CatalogKafkaSource 结构

指定数据目录中的一个 Apache Kafka 数据存储。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据存储的名称。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库的名称。

  • StreamingOptions – 一个 KafkaStreamingSourceOptions 对象。

    指定串流选项。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    指定与用于查看数据样本的数据预览相关的选项。

DirectKafkaSource 结构

指定一个 Apache Kafka 数据存储。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据存储的名称。

  • StreamingOptions – 一个 KafkaStreamingSourceOptions 对象。

    指定串流选项。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    指定与用于查看数据样本的数据预览相关的选项。

KafkaStreamingSourceOptions 结构

用于串流的其他选项。

字段

  • BootstrapServers – UTF-8 字符串,与 Custom string pattern #30 匹配。

    引导服务器 URL 的列表,例如,作为 b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094。此选项必须在 API 调用中指定,或在数据目录的表元数据中定义。

  • SecurityProtocol – UTF-8 字符串,与 Custom string pattern #30 匹配。

    用于与代理通信的协议。可能的值为 "SSL""PLAINTEXT"

  • ConnectionName – UTF-8 字符串,与 Custom string pattern #30 匹配。

    连接的名称。

  • TopicName – UTF-8 字符串,与 Custom string pattern #30 匹配。

    Apache Kafka 中指定的主题名称。您必须指定 "topicName""assign""subscribePattern" 中的至少一个。

  • Assign – UTF-8 字符串,与 Custom string pattern #30 匹配。

    要使用的特定 TopicPartitions。您必须指定 "topicName""assign""subscribePattern" 中的至少一个。

  • SubscribePattern – UTF-8 字符串,与 Custom string pattern #30 匹配。

    标识要订阅的主题列表的 Java 正则表达式字符串。您必须指定 "topicName""assign""subscribePattern" 中的至少一个。

  • Classification – UTF-8 字符串,与 Custom string pattern #30 匹配。

    一个可选分类。

  • Delimiter – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定分隔符。

  • StartingOffsets – UTF-8 字符串,与 Custom string pattern #30 匹配。

    Kafka 主题中读取数据的起始位置。可能的值为 "earliest""latest"。默认值为 "latest"

  • EndingOffsets – UTF-8 字符串,与 Custom string pattern #30 匹配。

    批处理查询结束时的终点。可能值为 "latest",或者为每个 TopicPartition 指定结束偏移的 JSON 字符串。

  • PollTimeoutMs – 数字(长型),至多为“无”。

    Spark 任务执行程序中,从 Kafka 轮询数据的超时时间(以毫秒为单位)。原定设置值为 512

  • NumRetries – 数字(整数),至多为“无”。

    获取 Kafka 偏移失败前的重试次数。原定设置值为 3

  • RetryIntervalMs – 数字(长型),至多为“无”。

    重试获取 Kafka 偏移前的等待时间(以毫秒为单位)。原定设置值为 10

  • MaxOffsetsPerTrigger – 数字(长型),至多为“无”。

    每个触发间隔处理的最大偏移数的速率限制。指定的总偏移数跨不同卷的 topicPartitions 按比例分割。默认值为 null,这意味着使用者读取所有偏移,直到已知的最新偏移。

  • MinPartitions – 数字(整数),至多为“无”。

    从 Kafka 读取数据的所需最小分区数。默认值为 null,这意味着 Spark 分区数等于 Kafka 分区数。

RedshiftSource 结构

指定一个 Amazon Redshift 数据存储。

字段

S3CatalogSource 结构

指定 Amazon Glue 数据目录中的一个 Amazon S3 数据存储。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据存储的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库表。

  • PartitionPredicate – UTF-8 字符串,与 Custom string pattern #30 匹配。

    满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为 "" – 默认情况下为空。

  • AdditionalOptions – 一个 S3SourceAdditionalOptions 对象。

    指定其他连接选项。

GovernedCatalogSource 结构

指定监管 Amazon Glue 数据目录中的一个数据存储。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据存储的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要从中进行读取的数据库表。

  • PartitionPredicate – UTF-8 字符串,与 Custom string pattern #30 匹配。

    满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为 "" – 默认情况下为空。

  • AdditionalOptions – 一个 S3SourceAdditionalOptions 对象。

    指定其他连接选项。

S3SourceAdditionalOptions 结构

为 Amazon S3 数据存储指定其他连接选项。

字段

  • BoundedSize – 数字(长型)。

    设置要处理的数据集的目标大小的上限(以字节为单位)。

  • BoundedFiles – 数字(长型)。

    设置要处理的文件的目标数量的上限。

S3CsvSource 结构

指定一个存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据存储的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • CompressionType – UTF-8 字符串(有效值:gzip="GZIP" | bzip2="BZIP2")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Exclusions – UTF-8 字符串数组。

    包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。

  • GroupSize – UTF-8 字符串,与 Custom string pattern #30 匹配。

    目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,"groupFiles" 必须设置为 "inPartition",此选项才能生效。

  • GroupFiles – UTF-8 字符串,与 Custom string pattern #30 匹配。

    当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为 "none"

  • Recurse – 布尔值。

    如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。

  • MaxBand – 数字(整数),至多为“无”。

    此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。当使用 JobBookmarks 来表明 Amazon S3 最终一致性时,将专门跟踪修改时间戳处于最后 maxBand 毫秒内的文件。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。

  • MaxFilesInBand – 数字(整数),至多为“无”。

    此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。

  • AdditionalOptions – 一个 S3DirectSourceAdditionalOptions 对象。

    指定其他连接选项。

  • Separator必填:UTF-8 字符串(有效值:comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB")。

    指定分隔符。默认值为逗号:“,”,但也可以指定任何其他字符。

  • Escaper – UTF-8 字符串,与 Custom string pattern #31 匹配。

    指定要用于转义的字符。此选项仅在读取 CSV 文件时使用。原定设置值为 none。如果启用,则按原样使用紧跟其后的字符,一小组已知的转义符(\n\r\t\0)除外。

  • QuoteChar必填:UTF-8 字符串(有效值:quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED")。

    指定要用于引用的字符。默认值为双引号:'"'。将这设置为 -1 可完全关闭引用。

  • Multiline – 布尔值。

    指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为 False,它允许在分析过程中更积极地拆分文件。

  • WithHeader – 布尔值。

    指定是否将第一行视为标题的布尔值。原定设置值为 False

  • WriteHeader – 布尔值。

    指定是否将标题写入输出的布尔值。原定设置值为 True

  • SkipFirst – 布尔值。

    指定是否跳过第一个数据行的布尔值。原定设置值为 False

  • OptimizePerformance – 布尔值。

    指定是否使用高级 SIMD CSV 读取器以及基于 Apache Arrow 的列式内存格式的布尔值。(仅在 Amazon Glue 版本 3.0 中提供。)

  • OutputSchemasGlueSchema 对象的数组。

    指定 S3 CSV 源的数据架构。

S3DirectSourceAdditionalOptions 结构

为 Amazon S3 数据存储指定其他连接选项。

字段

  • BoundedSize – 数字(长型)。

    设置要处理的数据集的目标大小的上限(以字节为单位)。

  • BoundedFiles – 数字(长型)。

    设置要处理的文件的目标数量的上限。

  • EnableSamplePath – 布尔值。

    设置选项以启用示例路径。

  • SamplePath – UTF-8 字符串,与 Custom string pattern #30 匹配。

    如果启用,请指定示例路径。

S3JsonSource 结构

指定一个存储在 Amazon S3 中的 JSON 数据存储。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据存储的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • CompressionType – UTF-8 字符串(有效值:gzip="GZIP" | bzip2="BZIP2")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Exclusions – UTF-8 字符串数组。

    包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。

  • GroupSize – UTF-8 字符串,与 Custom string pattern #30 匹配。

    目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,"groupFiles" 必须设置为 "inPartition",此选项才能生效。

  • GroupFiles – UTF-8 字符串,与 Custom string pattern #30 匹配。

    当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为 "none"

  • Recurse – 布尔值。

    如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。

  • MaxBand – 数字(整数),至多为“无”。

    此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。当使用 JobBookmarks 来表明 Amazon S3 最终一致性时,将专门跟踪修改时间戳处于最后 maxBand 毫秒内的文件。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。

  • MaxFilesInBand – 数字(整数),至多为“无”。

    此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。

  • AdditionalOptions – 一个 S3DirectSourceAdditionalOptions 对象。

    指定其他连接选项。

  • JsonPath – UTF-8 字符串,与 Custom string pattern #30 匹配。

    定义 JSON 数据的 JsonPath 字符串。

  • Multiline – 布尔值。

    指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为 False,它允许在分析过程中更积极地拆分文件。

  • OutputSchemasGlueSchema 对象的数组。

    指定 S3 JSON 源的数据架构。

S3ParquetSource 结构

指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据存储的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • CompressionType – UTF-8 字符串(有效值:snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Exclusions – UTF-8 字符串数组。

    包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。

  • GroupSize – UTF-8 字符串,与 Custom string pattern #30 匹配。

    目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,"groupFiles" 必须设置为 "inPartition",此选项才能生效。

  • GroupFiles – UTF-8 字符串,与 Custom string pattern #30 匹配。

    当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为 "none"

  • Recurse – 布尔值。

    如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。

  • MaxBand – 数字(整数),至多为“无”。

    此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。当使用 JobBookmarks 来表明 Amazon S3 最终一致性时,将专门跟踪修改时间戳处于最后 maxBand 毫秒内的文件。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。

  • MaxFilesInBand – 数字(整数),至多为“无”。

    此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。

  • AdditionalOptions – 一个 S3DirectSourceAdditionalOptions 对象。

    指定其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 S3 Parquet 源的数据架构。

DynamoDBCatalogSource 结构

指定 Amazon Glue 数据目录中的一个 DynamoDB 数据源。

字段

RelationalCatalogSource 结构

指定 Amazon Glue 数据目录中的一个关系数据库数据源。

字段

JDBCConnectorTarget 结构

指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    与连接器关联的连接的名称。

  • ConnectionTable必填: UTF-8 字符串,与 Custom string pattern #31 匹配。

    数据目标中表的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    将使用的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定指向 JDBC 数据目标的连接的连接类型,如 marketplace.jdbc 或 custom.jdbc。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #30 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #30 匹配。

    用于连接器的其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 JDBC 目标的数据架构。

SparkConnectorTarget 结构

指定一个使用 Apache Spark 连接器的目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    Apache Spark 连接器的连接名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    Apache Spark 连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #30 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #30 匹配。

    用于连接器的其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 Spark 目标的数据架构。

BasicCatalogTarget 结构

指定一个使用 Amazon Glue 数据目录表的目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    包含您要用作目标的表的数据库。此数据库必须已存在于数据目录中。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    定义输出数据架构的表。此表必须已存在于 数据目录中。

MySQLCatalogTarget 结构

指定一个使用 MySQL 的目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的数据库中的表的名称。

PostgreSQLCatalogTarget 结构

指定一个使用 Postgres SQL 的目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的数据库中的表的名称。

OracleSQLCatalogTarget 结构

指定一个使用 Oracle SQL 的目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的数据库中的表的名称。

MicrosoftSQLServerCatalogTarget 结构

指定一个使用 Microsoft SQL 的目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的数据库中的表的名称。

RedshiftTarget 结构

指定一个使用 Amazon Redshift 的目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的数据库中的表的名称。

  • RedshiftTmpDir – UTF-8 字符串,与 Custom string pattern #30 匹配。

    从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。

  • TmpDirIAMRole – UTF-8 字符串,与 Custom string pattern #30 匹配。

    拥有权限的 IAM 角色。

  • UpsertRedshiftOptions – 一个 UpsertRedshiftTargetOptions 对象。

    写入 Redshift 目标时用于配置 upsert 操作的一组选项。

UpsertRedshiftTargetOptions 结构

写入 Redshift 目标时用于配置 upsert 操作的选项。

字段

  • TableLocation – UTF-8 字符串,与 Custom string pattern #30 匹配。

    Redshift 表的物理位置。

  • ConnectionName – UTF-8 字符串,与 Custom string pattern #30 匹配。

    用于写入 Redshift 的连接的名称。

  • UpsertKeys – UTF-8 字符串数组。

    用于确定是执行更新还是插入的键。

S3CatalogTarget 结构

指定一个使用 Amazon Glue 数据目录写入 Amazon S3 的数据目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要向其写入的数据库的名称。

  • SchemaChangePolicy – 一个 CatalogSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

GovernedCatalogTarget 结构

指定一个使用 Amazon Glue 数据目录写入 Amazon S3 的数据目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Table必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要向其写入的数据库的名称。

  • SchemaChangePolicy – 一个 CatalogSchemaChangePolicy 对象。

    用于指定监管目录的更新行为的策略。

S3GlueParquetTarget 结构

指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Path必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的单个 Amazon S3 路径。

  • Compression – UTF-8 字符串(有效值:snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • SchemaChangePolicy – 一个 DirectSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

CatalogSchemaChangePolicy 结构

一项指定爬网程序的更新行为的策略。

字段

  • EnableUpdateCatalog – 布尔值。

    当爬网程序发现已更改的架构时,是否使用指定的更新行为。

  • UpdateBehavior – UTF-8 字符串(有效值:UPDATE_IN_DATABASE | LOG)。

    爬网程序发现已更改的架构时的更新行为。

S3DirectTarget 结构

指定一个写入 Amazon S3 的数据目标。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Path必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要写入的单个 Amazon S3 路径。

  • Compression – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Format必填:UTF-8 字符串(有效值:json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET")。

    指定目标的数据输出格式。

  • SchemaChangePolicy – 一个 DirectSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

DirectSchemaChangePolicy 结构

一项指定爬网程序的更新行为的策略。

字段

  • EnableUpdateCatalog – 布尔值。

    当爬网程序发现已更改的架构时,是否使用指定的更新行为。

  • UpdateBehavior – UTF-8 字符串(有效值:UPDATE_IN_DATABASE | LOG)。

    爬网程序发现已更改的架构时的更新行为。

  • Table – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定应用架构更改策略的数据库中的表。

  • Database – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指定应用架构更改策略的数据库。

ApplyMapping 结构

指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Mapping必填:Mapping 对象的数组。

    指定数据源中的数据属性键与数据目标中的数据属性键的映射。

映射结构

指定数据属性键的映射。

字段

  • ToKey – UTF-8 字符串,与 Custom string pattern #30 匹配。

    应用映射之后,列的名称应该是什么。可与 FromPath 相同。

  • FromPath – UTF-8 字符串数组。

    要修改的表或列。

  • FromType – UTF-8 字符串,与 Custom string pattern #30 匹配。

    要修改的数据的类型。

  • ToType – UTF-8 字符串,与 Custom string pattern #30 匹配。

    要修改的数据的数据类型。

  • Dropped – 布尔值。

    如果为 true(真),则删除列。

  • Children – Mapping 对象的数组。

    仅适用于嵌套数据结构。如果要更改父结构,但也要更改其子结构之一,则可填写此数据结构。它也是 Mapping,但其 FromPath 将是父结构的 FromPath 再加上来自此结构的 FromPath

    对于子部分,假设您拥有结构:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    您可以指定一个类似如下的 Mapping

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields 结构

指定一个选择要保留的数据属性键的转换。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Paths必填:EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    指向数据结构中变量的 JSON 路径。

DropFields 结构

指定一个选择要删除的数据属性键的转换。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Paths必填:EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    指向数据结构中变量的 JSON 路径。

RenameField 结构

指定一个重命名单个数据属性键的转换。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • SourcePath必填:UTF-8 字符串数组。

    指向源数据的数据结构中变量的 JSON 路径。

  • TargetPath必填:UTF-8 字符串数组。

    指向目标数据的数据结构中变量的 JSON 路径。

Spigot 结构

指定一个将数据样本写入 Amazon S3 存储桶的转换。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Path必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    Amazon S3 中的一个路径,在该路径中,转换会将数据集中的记录子集写入 Amazon S3 存储桶中的 JSON 文件。

  • Topk – 数字(整型),不超过 100。

    指定从数据集开头开始写入的一些记录。

  • Prob – 数字(双精度),不超过 1。

    选择任何给定记录的概率(最大值为 1 的十进制值)。值 1 表示从数据集中读取的每一行都应包括在示例输出中。

联接结构

指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。

    通过其节点名称标识的数据输入。

  • JoinType必填:UTF-8 字符串(有效值:equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI")。

    指定要针对数据集执行的联接的类型。

  • Columns必填JoinColumn 对象的数组,不少于 2 个或不超过 2 个结构。

    要联接的两列的列表。

JoinColumn 结构

指定一个要联接的列。

字段

  • From必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    要联接的列。

  • Keys必填:EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    要联接的列的键。

SplitFields 结构

指定一个将数据属性键拆分为两个 DynamicFrames 的转换。输出是 DynamicFrames 的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Paths必填:EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    指向数据结构中变量的 JSON 路径。

SelectFromCollection 结构

指定一个从 DynamicFrames 的集合中选择一个 DynamicFrame 的转换。输出是选定的 DynamicFrame

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Index必填:数字(整数),至多为“无”。

    要选择的 DynamicFrame 的索引。

FillMissingValues 结构

指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • ImputedPath必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    指向推算的数据集的数据结构中变量的 JSON 路径。

  • FilledPath – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指向被填充的数据集的数据结构中变量的 JSON 路径。

Filter 结构

指定一个转换,它将基于筛选条件将一个数据集拆分为两个。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • LogicalOperator必填:UTF-8 字符串(有效值:AND | OR)。

    用于通过将键值与指定值进行比较来筛选行的运算符。

  • Filters必填:FilterExpression 对象的数组。

    指定一个筛选条件表达式。

FilterExpression 结构

指定一个筛选条件表达式。

字段

  • Operation必填:UTF-8 字符串(有效值:EQ | LT | GT | LTE | GTE | REGEX | ISNULL)。

    要在该表达式中执行的操作的类型。

  • Negated – 布尔值。

    是否要否定该表达式。

  • Values必填:FilterValue 对象的数组。

    筛选条件值的列表。

FilterValue 结构

表示 FilterExpression 的值的列表中的单个条目。

字段

  • Type必填:UTF-8 字符串(有效值:COLUMNEXTRACTED | CONSTANT)。

    筛选条件值的类型。

  • Value必填:UTF-8 字符串数组。

    要关联的值。

CustomCode 结构

指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是 DynamicFrames 的集合。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,至少 1 个字符串。

    通过其节点名称标识的数据输入。

  • Code必填: UTF-8 字符串,与 Custom string pattern #26 匹配。

    用于执行数据转换的自定义代码。

  • ClassName必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    为自定义代码节点类定义的名称。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义代码转换的数据架构。

SparkSQL 结构

指定一个转换,您可以在其中使用 Spark SQL 语法输入 SQL 查询以转换数据。输出为单个 DynamicFrame

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,至少 1 个字符串。

    通过其节点名称标识的数据输入。您可以将表名称与要在 SQL 查询中使用的每个输入节点关联起来。您选择的名称必须满足 Spark SQL 命名限制。

  • SqlQuery必填: UTF-8 字符串,与 Custom string pattern #32 匹配。

    必须使用 Spark SQL 语法并返回单个数据集的 SQL 查询。

  • SqlAliases必填:SQLAlias 对象的数组。

    别名列表。别名允许您指定在 SQL 中为给定输入使用什么名称。例如,您拥有一个名为“MyDataSource”的数据源。如果您指定 From 作为 MyDataSource,以及 Alias 作为 SqlName,则您在 SQL 中可以执行以下操作:

    select * from SqlName

    而这将从 MyDataSource 获取数据。

  • OutputSchemasGlueSchema 对象的数组。

    指定 SparkSQL 转换的数据架构。

SqlAlias 结构

表示 SqlAliases 的值的列表中的单个条目。

字段

DropNullFields 结构

指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。预设情况下,Amazon Glue Studio 将识别 null 对象,但是某些值,如空字符串、“null”字符串、-1 整数或其他占位符(如零),不会被自动识别为 null。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • NullCheckBoxList – 一个 NullCheckBoxList 对象。

    一种结构,它表示是否将某些值识别为要删除的 null 值。

  • NullTextListNullValueField 对象的数组,不超过 50 个结构。

    一种结构,它指定 NullValueField 结构的列表,这些结构表示自定义 null 值,如零值或其他值,用作数据集唯一的 null 占位符。

    仅当 null 占位符的值和数据类型与数据匹配时,DropNullFields 转换才会删除自定义 null 值。

NullCheckBoxList 结构

表示某些值是否被识别为要删除的 null 值。

字段

  • IsEmpty – 布尔值。

    指定将一个空字符串视为 null 值。

  • IsNullString – 布尔值。

    指定将一个拼写“null”一词的值视为 null 值。

  • IsNegOne – 布尔值。

    指定将一个为 -1 的整数值视为 null 值。

NullValueField 结构

表示自定义 null 值,如零值或其他值,用作数据集唯一的 null 占位符。

字段

  • Value必填: UTF-8 字符串,与 Custom string pattern #30 匹配。

    null 占位符的值。

  • Datatype必填:一个 DataType 对象。

    值的数据类型。

Datatype 结构

表示值的数据类型的结构。

字段

Merge 结构

指定一个转换,它将基于指定的主键将 DynamicFrame 与暂存 DynamicFrame 合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。

    通过其节点名称标识的数据输入。

  • Source必填: UTF-8 字符串,与 Custom string pattern #29 匹配。

    将与暂存 DynamicFrame 合并的源 DynamicFrame

  • PrimaryKeys必填:EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    要匹配源和暂存动态帧中的记录的主键字段列表。

DropDuplicates 结构

指定一个用于从数据集中删除重复数据行的转换。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Columns – EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    重复时需要合并或删除的列的名称。

Union 结构

指定一个转换,它将两个或更多数据集中的行合并到单个结果中。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。

    节点 ID 输入到转换。

  • UnionType必填:UTF-8 字符串(有效值:ALL | DISTINCT)。

    指示 Union 转换的类型。

    指定 ALL 将数据源中的所有行联接到生成的 DynamicFrame。生成的并集不会删除重复行。

    指定 DISTINCT 删除生成的 DynamicFrame 中的重复行。

PIIDetection 结构

指定用于识别、删除或掩盖 PII 数据的转换。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    节点 ID 输入到转换。

  • PiiType必填:UTF-8 字符串(有效值:RowAudit | RowMasking | ColumnAudit | ColumnMasking)。

    指示 PIIDetection 转换的类型。

  • EntityTypesToDetect必填:UTF-8 字符串数组。

    指示 PIIDetection 转换将标识为 PII 数据的实体类型。

    PII 类型的实体包括:PERSON_NAME、DATE、USA_SNN、EMAIL、USA_ITIN、USA_PASSPORT_NUMBER、PHONE_NUMBER、BANK_ACCOUNT、IP_ADDRESS、MAC_ADDRESS、USA_CPT_CODE、USA_HCPCS_CODE、USA_NATIONAL_DRUG_CODE、USA_MEDICARE_BENEFICIARY_IDENTIFIER、USA_HEALTH_INSURANCE_CLAIM_NUMBER、CREDIT_CARD、USA_NATIONAL_PROVIDER_IDENTIFIER、USA_DEA_NUMBER、USA_DRIVING_LICENSE

  • OutputColumnName – UTF-8 字符串,与 Custom string pattern #30 匹配。

    指示包含该行中检测到的任何实体类型的输出列名称。

  • SampleFraction – 数字(双精度),不超过 1。

    指示要在扫描 PII 实体时采样的数据的部分。

  • ThresholdFraction – 数字(双精度),不超过 1。

    指示要将列标识为 PII 数据所必须满足的数据部分。

  • MaskValue – UTF-8 字符串,长度不超过 256 个字节,与 Custom string pattern #28 匹配。

    指示将替代检测到的实体的值。

聚合结构

指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。

字段

  • Name必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    指定要用作聚合转换输入的字段和行。

  • Groups必填:EnclosedInStringProperty 成员数组。

    UTF-8 字符串数组。

    指定要对其进行分组的字段。

  • Aggs必填:EnclosedInStringProperty 成员数组,不小于 1 或大于 30 个结构

    指定要对指定字段执行的聚合函数。

GlueSchema 结构

在无法确定架构时,指定一个用户定义的架构 Amazon Glue。

字段

GlueStudioSchemaColumn 结构

指定 Amazon Glue Studio 架构定义中的单个列。

字段

  • Name必填:UTF-8 字符串,长度不超过 1024 个字节,与 Single-line string pattern 匹配。

    Amazon Glue Studio 架构中的列名称。

  • Type – UTF-8 字符串,不超过 131072 个字节,与 Single-line string pattern 匹配。

    Amazon Glue Studio 架构中此列的 Hive 类型。

GlueStudioColumn 结构

指定 Amazon Glue Studio 中的单个列。

字段

  • Key必填: UTF-8 字符串,与 Custom string pattern #31 匹配。

    Amazon Glue Studio 中的列的键。

  • FullPath必填:UTF-8 字符串数组。

    Amazon Glue Studio 中的列的完整 URL。

  • Type必填: UTF-8 字符串(有效值:array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY")。

    Amazon Glue Studio 中的列的类型。

  • Children – 结构数组。

    Glue Studio 中的父列的子项。