可视化作业 API - Amazon Glue
 —  数据类型  —CodeGenConfigurationNodeJDBC ConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBC ConnectorSourceSparkConnectorSourceCatalogSourceMySQL CatalogSourcePostgreSQL CatalogSourceOracleSQL CatalogSource微软 SQL ServerCatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOption选项S3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceDirectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceDynamoDB CatalogSourceRelationalCatalogSourceJDBC ConnectorTargetSparkConnectorTargetBasicCatalogTargetMySQL CatalogTargetPostgreSQL CatalogTargetOracleSQL CatalogTarget微软 SQL ServerCatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingMappingSelectFieldsDropFieldsRenameFieldSpigotJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValues筛选条件FilterExpressionFilterValueCustomCodeSparkSQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldDataTypeMergeUnionPIIDetection聚合DropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQ ResultsPublishingOptionsDQ StopJobOnFailureOptionsEvaluateDataQualityMultiFrame配方RecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTarget
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

可视化作业 API

Visual Job API 允许您使用表示作业可视化配置的 JSON 对象中的 Amazon Glue API 来创建数据集成 Amazon Glue 作业。

为创建或更新作业 API 提供了列表,用于在 Amazon Glue Studio 中为已创建的作业注册 DAG 并生成关联代码。CodeGenConfigurationNodes

数据类型

CodeGenConfigurationNode 结构

CodeGenConfigurationNode 枚举全部有效的节点类型。可以填充其中一个成员变量,并且只能填充一个。

字段
  • AthenaConnectorSource – 一个 AthenaConnectorSource 对象。

    指定一个指向 Amazon Athena 数据源的连接器。

  • JDBCConnectorSource – 一个 JDBC ConnectorSource 对象。

    指定一个指向 JDBC 数据源的连接器。

  • SparkConnectorSource – 一个 SparkConnectorSource 对象。

    指定一个指向 Apache Spark 数据源的连接器。

  • CatalogSource – 一个 CatalogSource 对象。

    在数据目录中指定 Amazon Glue 数据存储。

  • RedshiftSource – 一个 RedshiftSource 对象。

    指定一个 Amazon Redshift 数据存储。

  • S3CatalogSource – 一个 S3 CatalogSource 对象。

    在数据目录中指定 Amazon S3 Amazon Glue 数据存储。

  • S3CsvSource – 一个 S3 CsvSource 对象。

    指定一个存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。

  • S3JsonSource – 一个 S3 JsonSource 对象。

    指定一个存储在 Amazon S3 中的 JSON 数据存储。

  • S3ParquetSource – 一个 S3 ParquetSource 对象。

    指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。

  • RelationalCatalogSource – 一个 RelationalCatalogSource 对象。

    在数据目录中指定关系目录 Amazon Glue 数据存储。

  • DynamoDBCatalogSource – 一个 DynamoDB CatalogSource 对象。

    在数据目录中指定 DynamoDBC 目录 Amazon Glue 数据存储。

  • JDBCConnectorTarget – 一个 JDBC ConnectorTarget 对象。

    指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

  • SparkConnectorTarget – 一个 SparkConnectorTarget 对象。

    指定一个使用 Apache Spark 连接器的目标。

  • CatalogTarget – 一个 BasicCatalogTarget 对象。

    指定使用 Amazon Glue 数据目录表的目标。

  • RedshiftTarget – 一个 RedshiftTarget 对象。

    指定一个使用 Amazon Redshift 的目标。

  • S3CatalogTarget – 一个 S3 CatalogTarget 对象。

    指定使用数据目录写入 Amazon S3 Amazon Glue 的数据目标。

  • S3GlueParquetTarget – 一个 S3 GlueParquetTarget 对象。

    指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

  • S3DirectTarget – 一个 S3 DirectTarget 对象。

    指定一个写入 Amazon S3 的数据目标。

  • ApplyMapping – 一个 ApplyMapping 对象。

    指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。

  • SelectFields – 一个 SelectFields 对象。

    指定一个选择要保留的数据属性键的转换。

  • DropFields – 一个 DropFields 对象。

    指定一个选择要删除的数据属性键的转换。

  • RenameField – 一个 RenameField 对象。

    指定一个重命名单个数据属性键的转换。

  • Spigot – 一个 Spigot 对象。

    指定一个将数据样本写入 Amazon S3 存储桶的转换。

  • Join – 一个 Join 对象。

    指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。

  • SplitFields – 一个 SplitFields 对象。

    指定一个将数据属性键拆分为两个 DynamicFrames 的转换。输出是 DynamicFrames 的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。

  • SelectFromCollection – 一个 SelectFromCollection 对象。

    指定一个从 DynamicFrames 的集合中选择一个 DynamicFrame 的转换。输出是选定的 DynamicFrame

  • FillMissingValues – 一个 FillMissingValues 对象。

    指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。

  • Filter – 一个 筛选条件 对象。

    指定一个转换,它将基于筛选条件将一个数据集拆分为两个。

  • CustomCode – 一个 CustomCode 对象。

    指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是一个集合 DynamicFrames。

  • SparkSQL – 一个 SparkSQL 对象。

    指定一个转换,您可以在其中使用 Spark SQL 语法输入 SQL 查询以转换数据。输出为单个 DynamicFrame

  • DirectKinesisSource – 一个 DirectKinesisSource 对象。

    指定一个直接 Amazon Kinesis 数据源。

  • DirectKafkaSource – 一个 DirectKafkaSource 对象。

    指定一个 Apache Kafka 数据存储。

  • CatalogKinesisSource – 一个 CatalogKinesisSource 对象。

    在数据目录中指定 Kinesis Amazon Glue 数据源。

  • CatalogKafkaSource – 一个 CatalogKafkaSource 对象。

    指定数据目录中的一个 Apache Kafka 数据存储。

  • DropNullFields – 一个 DropNullFields 对象。

    指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。默认情况下, Amazon Glue Studio 会识别空对象,但是某些值(例如空字符串、“null” 字符串、-1 个整数或其他占位符(例如零)不会自动识别为空值。

  • Merge – 一个 Merge 对象。

    指定一个转换,它将基于指定的主键将 DynamicFrame 与暂存 DynamicFrame 合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。

  • Union – 一个 Union 对象。

    指定一个转换,它将两个或更多数据集中的行合并到单个结果中。

  • PIIDetection – 一个 PIIDetection 对象。

    指定用于识别、删除或掩盖 PII 数据的转换。

  • Aggregate – 一个 聚合 对象。

    指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。

  • DropDuplicates – 一个 DropDuplicates 对象。

    指定一个用于从数据集中删除重复数据行的转换。

  • GovernedCatalogTarget – 一个 GovernedCatalogTarget 对象。

    指定一个用于写入监管目录的数据目标。

  • GovernedCatalogSource – 一个 GovernedCatalogSource 对象。

    指定监管数据目录中的一个数据源。

  • MicrosoftSQLServerCatalogSource – 一个 微软 SQL ServerCatalogSource 对象。

    在 Amazon Glue 数据目录中指定一个 Microsoft SQL Server 数据源。

  • MySQLCatalogSource – 一个 MySQL CatalogSource 对象。

    在数据目录中指定一个 MySQL Amazon Glue 数据源。

  • OracleSQLCatalogSource – 一个 OracleSQL CatalogSource 对象。

    在数据目录中指定 Oracle Amazon Glue 数据源。

  • PostgreSQLCatalogSource – 一个 PostgreSQL CatalogSource 对象。

    在数据目录中指定 PostgresSQL 数据源。 Amazon Glue

  • MicrosoftSQLServerCatalogTarget – 一个 微软 SQL ServerCatalogTarget 对象。

    指定一个使用 Microsoft SQL 的目标。

  • MySQLCatalogTarget – 一个 MySQL CatalogTarget 对象。

    指定一个使用 MySQL 的目标。

  • OracleSQLCatalogTarget – 一个 OracleSQL CatalogTarget 对象。

    指定一个使用 Oracle SQL 的目标。

  • PostgreSQLCatalogTarget – 一个 PostgreSQL CatalogTarget 对象。

    指定一个使用 Postgres SQL 的目标。

  • DynamicTransform – 一个 DynamicTransform 对象。

    指定由用户创建的自定义视觉转换。

  • EvaluateDataQuality – 一个 EvaluateDataQuality 对象。

    指定您的数据质量评估标准。

  • S3CatalogHudiSource – 一个 S3 CatalogHudiSource 对象。

    指定在数据目录中注册的 Hudi Amazon Glue 数据源。数据源必须存储在 Amazon S3。

  • CatalogHudiSource – 一个 CatalogHudiSource 对象。

    指定在数据目录中注册的 Hudi Amazon Glue 数据源。

  • S3HudiSource – 一个 S3 HudiSource 对象。

    指定存储在中的 Amazon S3Hudi 数据源。

  • S3HudiCatalogTarget – 一个 S3 HudiCatalogTarget 对象。

    指定写入数据目录中的 Hudi 数据源的目标。 Amazon Glue

  • S3HudiDirectTarget – 一个 S3 HudiDirectTarget 对象。

    指定写入中 Hudi 数据源的目标。 Amazon S3

  • S3CatalogDeltaSource – 一个 S3 CatalogDeltaSource 对象。

    指定在数据目录中注册的 Delta Lake Amazon Glue 数据源。数据源必须存储在 Amazon S3。

  • CatalogDeltaSource – 一个 CatalogDeltaSource 对象。

    指定在数据目录中注册的 Delta Lake Amazon Glue 数据源。

  • S3DeltaSource – 一个 S3 DeltaSource 对象。

    指定存储在中的三角洲湖数据源 Amazon S3。

  • S3DeltaCatalogTarget – 一个 S3 DeltaCatalogTarget 对象。

    指定写入数据目录中的 Delta Lake Amazon Glue 数据源的目标。

  • S3DeltaDirectTarget – 一个 S3 DeltaDirectTarget 对象。

    指定写入中三角洲湖数据源的目标 Amazon S3。

  • AmazonRedshiftSource – 一个 AmazonRedshiftSource 对象。

    指定在 Amazon Redshift 中写入数据来源的目标。

  • AmazonRedshiftTarget – 一个 AmazonRedshiftTarget 对象。

    指定在 Amazon Redshift 中写入数据目标的目标。

  • EvaluateDataQualityMultiFrame – 一个 EvaluateDataQualityMultiFrame 对象。

    指定您的数据质量评估标准。允许多个输入数据并返回动态帧的集合。

  • Recipe – 一个 配方 对象。

    指定 Amazon Glue DataBrew 配方节点。

  • SnowflakeSource – 一个 SnowflakeSource 对象。

    指定 Snowflake 数据来源。

  • SnowflakeTarget – 一个 SnowflakeTarget 对象。

    指定写入 Snowflake 数据来源的目标。

  • ConnectorDataSource – 一个 ConnectorDataSource 对象。

    指定使用标准连接选项生成的源。

  • ConnectorDataTarget – 一个 ConnectorDataTarget 对象。

    指定使用标准连接选项生成的目标。

JDBC 结构 ConnectorOptions

用于连接器的其他连接选项。

字段
  • FilterPredicate – UTF-8 字符串,与 Custom string pattern #34 匹配。

    用于筛选源中的数据的额外条件子句。例如:

    BillingCity='Mountain View'

    使用查询(而不是表名称)时,您应验证查询是否适用于指定的 filterPredicate

  • PartitionColumn – UTF-8 字符串,与 Custom string pattern #34 匹配。

    用于分区的整数列的名称。此选项仅在包含 lowerBoundupperBoundnumPartitions 时有效。此选项的工作方式与 Spark SQL JDBC 阅读器中的工作方式相同。

  • LowerBound – 数字(长型),至多为“无”。

    用于确定分区步长的最小 partitionColumn 值。

  • UpperBound – 数字(长型),至多为“无”。

    用于确定分区步长的最大 partitionColumn 值。

  • NumPartitions – 数字(长型),至多为“无”。

    分区的数量。此值以及 lowerBound(包含)和 upperBound(排除)为用于拆分 partitionColumn 而生成的 WHERE 子句表达式构成分区步长。

  • JobBookmarkKeys – UTF-8 字符串数组。

    要作为排序依据的任务书签键的名称。

  • JobBookmarkKeysSortOrder – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定升序或降序排序顺序。

  • DataTypeMapping – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串(有效值:ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR)。

    每个值都是一个 UTF-8字符串(有效值:DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE)。

    用于构建从 JDBC 数据类型到 Amazon Glue 数据类型的映射的自定义数据类型映射。例如,该选项通过调用驱动程序的ResultSet.getString()方法FLOAT将 JDBC String 类型的数据字段"dataTypeMapping":{"FLOAT":"STRING"}映射到 Java 类型,并使用它来生成记录。 Amazon Glue ResultSet 对象由每个驱动程序实现,因此行为特定于您使用的驱动程序。请参阅 JDBC 驱动程序的文档,了解驱动程序执行转换的方式。

StreamingDataPreviewOptions 结构

指定与用于查看数据样本的数据预览相关的选项。

字段
  • PollingTime – 数字(长度),至少为 10。

    轮询时间(以毫秒为单位)。

  • RecordPollingLimit – 数字(长度),至少为 1。

    已轮询的记录的数量限制。

AthenaConnectorSource 结构

指定一个指向 Amazon Athena 数据源的连接器。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据源的名称。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    与连接器关联的连接的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    帮助访问 Amazon Glue Studio 中数据存储的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定指向 Amazon Athena 数据存储的连接的连接类型,如 marketplace.athena 或 custom.athena。

  • ConnectionTable – UTF-8 字符串,与 Custom string pattern #35 匹配。

    数据源中的表的名称。

  • SchemaName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的 CloudWatch 日志组的名称。例如,/aws-glue/jobs/output

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 Athena 源的数据架构。

JDBC 结构 ConnectorSource

指定一个指向 JDBC 数据源的连接器。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据源的名称。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    与连接器关联的连接的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    帮助访问 Amazon Glue Studio 中数据存储的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定指向 JDBC 数据存储的连接的连接类型,如 marketplace.jdbc 或 custom.jdbc。

  • AdditionalOptions – 一个 JDBC ConnectorOptions 对象。

    用于连接器的其他连接选项。

  • ConnectionTable – UTF-8 字符串,与 Custom string pattern #35 匹配。

    数据源中的表的名称。

  • Query – UTF-8 字符串,与 Custom string pattern #36 匹配。

    从中获取数据的表或 SQL 查询。您可以指定 ConnectionTablequery,但不能同时指定两者。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 JDBC 源的数据架构。

SparkConnectorSource 结构

指定一个指向 Apache Spark 数据源的连接器。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据源的名称。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    与连接器关联的连接的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    帮助访问 Amazon Glue Studio 中数据存储的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    用于连接器的其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 Spark 源的数据架构。

CatalogSource 结构

在数据目录中指定 Amazon Glue 数据存储。

字段

MySQL CatalogSource 结构

在数据目录中指定一个 MySQL Amazon Glue 数据源。

字段

PostgreSQL 结构 CatalogSource

在数据目录中指定 PostgresSQL 数据源。 Amazon Glue

字段

OracleSQL 结构 CatalogSource

在数据目录中指定 Oracle Amazon Glue 数据源。

字段

微软 SQL 结构 ServerCatalogSource

在 Amazon Glue 数据目录中指定一个 Microsoft SQL Server 数据源。

字段

CatalogKinesisSource 结构

在数据目录中指定 Kinesis Amazon Glue 数据源。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据源的名称。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库的名称。

  • StreamingOptions – 一个 KinesisStreamingSourceOptions 对象。

    用于 Kinesis 串流数据源的其他选项。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    用于数据预览的其他选项。

DirectKinesisSource 结构

指定一个直接 Amazon Kinesis 数据源。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据源的名称。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • StreamingOptions – 一个 KinesisStreamingSourceOptions 对象。

    用于 Kinesis 串流数据源的其他选项。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    用于数据预览的其他选项。

KinesisStreamingSourceOptions 结构

用于 Amazon Kinesis 串流数据源的其他选项。

字段
  • EndpointUrl – UTF-8 字符串,与 Custom string pattern #34 匹配。

    Kinesis 端点的 URL。

  • StreamName – UTF-8 字符串,与 Custom string pattern #34 匹配。

    Kinesis 数据流的名称。

  • Classification – UTF-8 字符串,与 Custom string pattern #34 匹配。

    一个可选分类。

  • Delimiter – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定分隔符。

  • StartingPosition – UTF-8 字符串(有效值:latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" | timestamp="TIMESTAMP")。

    要从中读取数据的 Kinesis 数据流中的起始位置。可能的值是 "latest""trim_horizon""earliest" 或以模式 yyyy-mm-ddTHH:MM:SSZ 采用 UTC 格式的时间戳字符串(其中 Z 表示带有 +/-的 UTC 时区偏移量。例如:“2023-04-04T08:00:00-04:00”)。默认值为 "latest"

    注意:仅版本 4.0 或更高 Amazon Glue 版本支持使用 UTC 格式的时间戳字符串值来表示 “StartingPosition”。

  • MaxFetchTimeInMs – 数字(长型),至多为“无”。

    任务执行程序从每个分片的 Kinesis 数据流中获取记录所花费的最长时间,以毫秒为单位指定。默认值为 1000

  • MaxFetchRecordsPerShard – 数字(长型),至多为“无”。

    Kinesis 数据流中每微批次中每个分片要提取的最大记录数。注意:如果直播作业已经从 Kinesis 读取了额外记录(在同一个获取记录调用中),则客户端可以超过此限制。如果MaxFetchRecordsPerShard需要严格,则必须是其倍数MaxRecordPerRead。默认值为 100000

  • MaxRecordPerRead – 数字(长型),至多为“无”。

    每项 getRecords 操作中要从 Kinesis 数据流获取的最大记录数。默认值为 10000

  • AddIdleTimeBetweenReads – 布尔值。

    在两项连续 getRecords 操作之间添加时间延迟。默认值为 "False"。此选项仅适用于 Glue 版本 2.0 及更高版本。

  • IdleTimeBetweenReadsInMs – 数字(长型),至多为“无”。

    两项连续 getRecords 操作之间的最短时间延迟,以毫秒为单位指定。默认值为 1000。此选项仅适用于 Glue 版本 2.0 及更高版本。

  • DescribeShardInterval – 数字(长型),至多为“无”。

    脚本需要考虑重新分片的两次 ListShards API 调用之间的最短时间间隔。默认值为 1s

  • NumRetries – 数字(整数),至多为“无”。

    Kinesis Data Streams API 请求的最大重试次数。默认值为 3

  • RetryIntervalMs – 数字(长型),至多为“无”。

    重试 Kinesis Data Streams API 调用之前的冷却时间(以毫秒为单位指定)。默认值为 1000

  • MaxRetryIntervalMs – 数字(长型),至多为“无”。

    Kinesis Data Streams API 调用的两次重试之间的最长冷却时间(以毫秒为单位指定)。默认值为 10000

  • AvoidEmptyBatches – 布尔值。

    在批处理开始之前检查 Kinesis 数据流中是否有未读数据,避免创建空白微批处理任务。默认值为 "False"

  • StreamArn – UTF-8 字符串,与 Custom string pattern #34 匹配。

    Kinesis 数据流的 Amazon Resource Name (ARN)。

  • RoleArn – UTF-8 字符串,与 Custom string pattern #34 匹配。

    要使用 AWS Security Token Service (AWS STS) 代入的角色的 Amazon Resource Name (ARN)。此角色必须拥有针对 Kinesis 数据流执行描述或读取记录操作的权限。在访问其他账户中的数据流时,必须使用此参数。与 "awsSTSSessionName" 结合使用。

  • RoleSessionName – UTF-8 字符串,与 Custom string pattern #34 匹配。

    使用 AWS STS 代入角色的会话的标识符。在访问其他账户中的数据流时,必须使用此参数。与 "awsSTSRoleARN" 结合使用。

  • AddRecordTimestamp – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当选项设置为 'true' 时,数据输出将包含一个名为 "__src_timestamp" 的附加列,表示数据流收到相应记录的时间。默认值为‘false’。4.0 或更高 Amazon Glue 版本支持此选项。

  • EmitConsumerLagMetrics – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当此选项设置为 “true” 时,对于每个批次,它将发出从直播收到的最旧记录到其到达时间之间的持续时间内的 Amazon Glue 指标。 CloudWatch该指标的名字是 “glue.driver.streaming”。 maxConsumerLagInMs”。默认值为‘false’。4.0 或更高 Amazon Glue 版本支持此选项。

  • StartingTimestamp – UTF-8 字符串。

    Kinesis 数据流中开始读取数据的记录的时间戳。可能的值是以模式 yyyy-mm-ddTHH:MM:SSZ 采用 UTC 格式的时间戳字符串(其中 表示带有 +/-的 UTC 时区偏移量。例如:“2023-04-04T08:00:00+08:00”)。

CatalogKafkaSource 结构

指定数据目录中的一个 Apache Kafka 数据存储。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据存储的名称。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库的名称。

  • StreamingOptions – 一个 KafkaStreamingSourceOptions 对象。

    指定串流选项。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    指定与用于查看数据样本的数据预览相关的选项。

DirectKafkaSource 结构

指定一个 Apache Kafka 数据存储。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据存储的名称。

  • StreamingOptions – 一个 KafkaStreamingSourceOptions 对象。

    指定串流选项。

  • WindowSize – 数字(整数),至多为“无”。

    处理每个微批处理所花费的时间量。

  • DetectSchema – 布尔值。

    是否从传入的数据中自动确定架构。

  • DataPreviewOptions – 一个 StreamingDataPreviewOptions 对象。

    指定与用于查看数据样本的数据预览相关的选项。

KafkaStreamingSourceOptions 结构

用于串流的其他选项。

字段
  • BootstrapServers – UTF-8 字符串,与 Custom string pattern #34 匹配。

    引导服务器 URL 的列表,例如,作为 b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094。此选项必须在 API 调用中指定,或在数据目录的表元数据中定义。

  • SecurityProtocol – UTF-8 字符串,与 Custom string pattern #34 匹配。

    用于与代理通信的协议。可能的值为 "SSL""PLAINTEXT"

  • ConnectionName – UTF-8 字符串,与 Custom string pattern #34 匹配。

    连接的名称。

  • TopicName – UTF-8 字符串,与 Custom string pattern #34 匹配。

    Apache Kafka 中指定的主题名称。您必须指定 "topicName""assign""subscribePattern" 中的至少一个。

  • Assign – UTF-8 字符串,与 Custom string pattern #34 匹配。

    要使用的特定 TopicPartitions。您必须指定 "topicName""assign""subscribePattern" 中的至少一个。

  • SubscribePattern – UTF-8 字符串,与 Custom string pattern #34 匹配。

    标识要订阅的主题列表的 Java 正则表达式字符串。您必须指定 "topicName""assign""subscribePattern" 中的至少一个。

  • Classification – UTF-8 字符串,与 Custom string pattern #34 匹配。

    一个可选分类。

  • Delimiter – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定分隔符。

  • StartingOffsets – UTF-8 字符串,与 Custom string pattern #34 匹配。

    Kafka 主题中读取数据的起始位置。可能的值为 "earliest""latest"。默认值为 "latest"

  • EndingOffsets – UTF-8 字符串,与 Custom string pattern #34 匹配。

    批处理查询结束时的终点。可能值为 "latest",或者为每个 TopicPartition 指定结束偏移的 JSON 字符串。

  • PollTimeoutMs – 数字(长型),至多为“无”。

    Spark 任务执行程序中,从 Kafka 轮询数据的超时时间(以毫秒为单位)。默认值为 512

  • NumRetries – 数字(整数),至多为“无”。

    获取 Kafka 偏移失败前的重试次数。默认值为 3

  • RetryIntervalMs – 数字(长型),至多为“无”。

    重试获取 Kafka 偏移前的等待时间(以毫秒为单位)。默认值为 10

  • MaxOffsetsPerTrigger – 数字(长型),至多为“无”。

    每个触发间隔处理的最大偏移数的速率限制。指定的总偏移数跨不同卷的 topicPartitions 按比例分割。默认值为 null,这意味着使用者读取所有偏移,直到已知的最新偏移。

  • MinPartitions – 数字(整数),至多为“无”。

    从 Kafka 读取数据的所需最小分区数。默认值为 null,这意味着 Spark 分区数等于 Kafka 分区数。

  • IncludeHeaders – 布尔值。

    是否包含 Kafka 标头。当选项设置为“true”时,数据输出将包含一个名为“glue_streaming_kafka_headers”的附加列,类型为 Array[Struct(key: String, value: String)]。默认值为“false”。此选项仅在 3.0 或更高 Amazon Glue 版本中可用。

  • AddRecordTimestamp – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当选项设置为 'true' 时,数据输出将包含一个名为 "__src_timestamp" 的附加列,表示主题收到相应记录的时间。默认值为‘false’。4.0 或更高 Amazon Glue 版本支持此选项。

  • EmitConsumerLagMetrics – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当此选项设置为 “true” 时,对于每个批次,它将发出从主题收到的最旧记录到该记录到达的时间之间的持续时间内的 Amazon Glue 指标。 CloudWatch该指标的名字是 “glue.driver.streaming”。 maxConsumerLagInMs”。默认值为‘false’。4.0 或更高 Amazon Glue 版本支持此选项。

  • StartingTimestamp – UTF-8 字符串。

    Kafka 主题中开始读取数据的记录时间戳。可能的值是以模式 yyyy-mm-ddTHH:MM:SSZ 采用 UTC 格式的时间戳字符串(其中 表示带有 +/-的 UTC 时区偏移量。例如:“2023-04-04T08:00:00+08:00”)。

    只能设置一个 StartingTimestampStartingOffsets

RedshiftSource 结构

指定一个 Amazon Redshift 数据存储。

字段

AmazonRedshiftSource 结构

指定 Amazon Redshift 来源。

字段

AmazonRedshiftNodeData 结构

指定一个 Amazon Redshift 节点。

字段
  • AccessType – UTF-8 字符串,与 Custom string pattern #33 匹配。

    Redshift 连接的访问类型。可以是直接连接或目录连接。

  • SourceType – UTF-8 字符串,与 Custom string pattern #33 匹配。

    用于指定特定表是源查询还是自定义查询的源类型。

  • Connection – 一个 选项 对象。

    与 Redshift 集群的 Amazon Glue 连接。

  • Schema – 一个 选项 对象。

    使用直接连接时的 Redshift 架构名称。

  • Table – 一个 选项 对象。

    使用直接连接时的 Redshift 表名称。

  • CatalogDatabase – 一个 选项 对象。

    使用 Amazon Glue 数据目录时数据目录数据库的名称。

  • CatalogTable – 一个 选项 对象。

    使用 Amazon Glue 数据目录时的数据目录表名。

  • CatalogRedshiftSchema – UTF-8 字符串。

    使用数据目录时的 Redshift 架构名称。

  • CatalogRedshiftTable – UTF-8 字符串。

    要从中进行读取的数据库表。

  • TempDir – UTF-8 字符串,与 Custom string pattern #34 匹配。

    从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。

  • IamRole – 一个 选项 对象。

    可选。连接到 S3 时使用的角色名称。留空时,IAM 角色将默认为作业中的角色。

  • AdvancedOptionsAmazonRedshiftAdvancedOption 对象的数组。

    连接到 Redshift 集群时为可选值。

  • SampleQuery – UTF-8 字符串。

    当 Redshift 源为 “查询” 时,用于从 Redshift 源中获取数据 SourceType的 SQL。

  • PreAction – UTF-8 字符串。

    使用 upsert 运行 MERGE 或 APPEND 之前使用的 SQL。

  • PostAction – UTF-8 字符串。

    使用 upsert 运行 MERGE 或 APPEND 之前使用的 SQL。

  • Action – UTF-8 字符串。

    指定写入 Redshift 集群的操作方式。

  • TablePrefix – UTF-8 字符串,与 Custom string pattern #33 匹配。

    指定表的前缀。

  • Upsert – 布尔值。

    执行 APPEND 时,在 Redshift 上使用的操作会失效。

  • MergeAction – UTF-8 字符串,与 Custom string pattern #33 匹配。

    该操作用于确定如何处理 Redshift 接收器中的 MERGE。

  • MergeWhenMatched – UTF-8 字符串,与 Custom string pattern #33 匹配。

    当现有记录与新记录匹配时,该操作用于确定如何处理 Redshift 接收器中的 MERGE。

  • MergeWhenNotMatched – UTF-8 字符串,与 Custom string pattern #33 匹配。

    当现有记录与新记录不匹配时,该操作用于确定如何处理 Redshift 接收器中的 MERGE。

  • MergeClause – UTF-8 字符串。

    自定义合并中用于处理匹配记录的 SQL。

  • CrawlerConnection – UTF-8 字符串。

    指定与所用目录表关联的连接的名称。

  • TableSchema选项 对象的数组。

    给定节点的架构输出数组。

  • StagingTable – UTF-8 字符串。

    使用 upsert 执行 MERGE 或 APPEND 时使用的临时暂存表的名称。

  • SelectedColumns选项 对象的数组。

    使用 upsert 执行 MERGE 或 APPEND 时用于确定匹配记录的列名列表。

AmazonRedshiftAdvancedOption 结构

连接到 Redshift 集群时指定可选值。

字段
  • Key – UTF-8 字符串。

    其他连接选项的键。

  • Value – UTF-8 字符串。

    其他连接选项的值。

选项结构

指定选项值。

字段

S3 CatalogSource 结构

在数据目录中指定 Amazon S3 Amazon Glue 数据存储。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据存储的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库表。

  • PartitionPredicate – UTF-8 字符串,与 Custom string pattern #34 匹配。

    满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为 "" – 默认情况下为空。

  • AdditionalOptions – 一个 S3 SourceAdditionalOptions 对象。

    指定其他连接选项。

S3 SourceAdditionalOptions 结构

为 Amazon S3 数据存储指定其他连接选项。

字段
  • BoundedSize – 数字(长型)。

    设置要处理的数据集的目标大小的上限(以字节为单位)。

  • BoundedFiles – 数字(长型)。

    设置要处理的文件的目标数量的上限。

S3 CsvSource 结构

指定一个存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据存储的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • CompressionType – UTF-8 字符串(有效值:gzip="GZIP" | bzip2="BZIP2")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Exclusions – UTF-8 字符串数组。

    包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。

  • GroupSize – UTF-8 字符串,与 Custom string pattern #34 匹配。

    目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,"groupFiles" 必须设置为 "inPartition",此选项才能生效。

  • GroupFiles – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为 "none"

  • Recurse – 布尔值。

    如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。

  • MaxBand – 数字(整数),至多为“无”。

    此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。为了 JobBookmarks考虑 Amazon S3 的最终一致性,修改时间戳在最近 MaxBand 毫秒以内的文件会被特别跟踪。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。

  • MaxFilesInBand – 数字(整数),至多为“无”。

    此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。

  • AdditionalOptions – 一个 S3 DirectSourceAdditionalOptions 对象。

    指定其他连接选项。

  • Separator必填:UTF-8 字符串(有效值:comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB")。

    指定分隔符。默认值为逗号:“,”,但也可以指定任何其他字符。

  • Escaper – UTF-8 字符串,与 Custom string pattern #35 匹配。

    指定要用于转义的字符。此选项仅在读取 CSV 文件时使用。默认值为 none。如果启用,则按原样使用紧跟其后的字符,一小组已知的转义符(\n\r\t\0)除外。

  • QuoteChar必填:UTF-8 字符串(有效值:quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED")。

    指定要用于引用的字符。默认值为双引号:'"'。将这设置为 -1 可完全关闭引用。

  • Multiline – 布尔值。

    指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为 False,它允许在分析过程中更积极地拆分文件。

  • WithHeader – 布尔值。

    指定是否将第一行视为标题的布尔值。默认值为 False

  • WriteHeader – 布尔值。

    指定是否将标题写入输出的布尔值。默认值为 True

  • SkipFirst – 布尔值。

    指定是否跳过第一个数据行的布尔值。默认值为 False

  • OptimizePerformance – 布尔值。

    指定是否使用高级 SIMD CSV 读取器以及基于 Apache Arrow 的列式内存格式的布尔值。仅在 3.0 Amazon Glue 版本中可用。

  • OutputSchemasGlueSchema 对象的数组。

    指定 S3 CSV 源的数据架构。

DirectJDBCSource 结构

指定直接 JDBC 数据源连接。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    JDBC 数据源连接的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    JDBC 数据源连接的数据库。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    JDBC 数据源连接的表。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    JDBC 数据源的连接名称。

  • ConnectionType必填:UTF-8 字符串(有效值:sqlserver | mysql | oracle | postgresql | redshift)。

    JDBC 源的连接类型。

  • RedshiftTmpDir – UTF-8 字符串,与 Custom string pattern #34 匹配。

    JDBC Redshift 数据源的临时目录。

S3 DirectSourceAdditionalOptions 结构

为 Amazon S3 数据存储指定其他连接选项。

字段
  • BoundedSize – 数字(长型)。

    设置要处理的数据集的目标大小的上限(以字节为单位)。

  • BoundedFiles – 数字(长型)。

    设置要处理的文件的目标数量的上限。

  • EnableSamplePath – 布尔值。

    设置选项以启用示例路径。

  • SamplePath – UTF-8 字符串,与 Custom string pattern #34 匹配。

    如果启用,请指定示例路径。

S3 JsonSource 结构

指定一个存储在 Amazon S3 中的 JSON 数据存储。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据存储的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • CompressionType – UTF-8 字符串(有效值:gzip="GZIP" | bzip2="BZIP2")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Exclusions – UTF-8 字符串数组。

    包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。

  • GroupSize – UTF-8 字符串,与 Custom string pattern #34 匹配。

    目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,"groupFiles" 必须设置为 "inPartition",此选项才能生效。

  • GroupFiles – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为 "none"

  • Recurse – 布尔值。

    如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。

  • MaxBand – 数字(整数),至多为“无”。

    此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。为了 JobBookmarks考虑 Amazon S3 的最终一致性,修改时间戳在最近 MaxBand 毫秒以内的文件会被特别跟踪。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。

  • MaxFilesInBand – 数字(整数),至多为“无”。

    此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。

  • AdditionalOptions – 一个 S3 DirectSourceAdditionalOptions 对象。

    指定其他连接选项。

  • JsonPath – UTF-8 字符串,与 Custom string pattern #34 匹配。

    定义 JSON 数据的 JsonPath 字符串。

  • Multiline – 布尔值。

    指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为 False,它允许在分析过程中更积极地拆分文件。

  • OutputSchemasGlueSchema 对象的数组。

    指定 S3 JSON 源的数据架构。

S3 ParquetSource 结构

指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据存储的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • CompressionType – UTF-8 字符串(有效值:snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Exclusions – UTF-8 字符串数组。

    包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。

  • GroupSize – UTF-8 字符串,与 Custom string pattern #34 匹配。

    目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,"groupFiles" 必须设置为 "inPartition",此选项才能生效。

  • GroupFiles – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为 "none"

  • Recurse – 布尔值。

    如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。

  • MaxBand – 数字(整数),至多为“无”。

    此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。为了 JobBookmarks考虑 Amazon S3 的最终一致性,修改时间戳在最近 MaxBand 毫秒以内的文件会被特别跟踪。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。

  • MaxFilesInBand – 数字(整数),至多为“无”。

    此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。

  • AdditionalOptions – 一个 S3 DirectSourceAdditionalOptions 对象。

    指定其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 S3 Parquet 源的数据架构。

S3 DeltaSource 结构

指定存储在中的三角洲湖数据源 Amazon S3。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    Delta Lake 源的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • AdditionalDeltaOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定其他连接选项。

  • AdditionalOptions – 一个 S3 DirectSourceAdditionalOptions 对象。

    为连接器指定其他选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 Delta Lake 源的数据架构。

S3 CatalogDeltaSource 结构

指定在数据目录中注册的 Delta Lake Amazon Glue 数据源。数据源必须存储在 Amazon S3。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    Delta Lake 数据源的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库中的表的名称。

  • AdditionalDeltaOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 Delta Lake 源的数据架构。

CatalogDeltaSource 结构

指定在数据目录中注册的 Delta Lake Amazon Glue 数据源。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    Delta Lake 数据源的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库中的表的名称。

  • AdditionalDeltaOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 Delta Lake 源的数据架构。

S3 HudiSource 结构

指定存储在中的 Amazon S3Hudi 数据源。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    Hudi 源的名称。

  • Paths必填:UTF-8 字符串数组。

    要从中进行读取的 Amazon S3 路径的列表。

  • AdditionalHudiOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定其他连接选项。

  • AdditionalOptions – 一个 S3 DirectSourceAdditionalOptions 对象。

    为连接器指定其他选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 Hudi 源的数据架构。

S3 CatalogHudiSource 结构

指定在数据目录中注册的 Hudi Amazon Glue 数据源。Hudi 数据源必须存储在。 Amazon S3

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据来源的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库中的表的名称。

  • AdditionalHudiOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 Hudi 源的数据架构。

CatalogHudiSource 结构

指定在数据目录中注册的 Hudi Amazon Glue 数据源。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据来源的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库中的表的名称。

  • AdditionalHudiOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 Hudi 源的数据架构。

DynamoDB 结构 CatalogSource

在数据目录中指定 DynamoDB 数据源。 Amazon Glue

字段

RelationalCatalogSource 结构

指定 Amazon Glue 数据目录中的一个关系数据库数据源。

字段

JDBC 结构 ConnectorTarget

指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    与连接器关联的连接的名称。

  • ConnectionTable必填: UTF-8 字符串,与 Custom string pattern #35 匹配。

    数据目标中表的名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    将使用的连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定指向 JDBC 数据目标的连接的连接类型,如 marketplace.jdbc 或 custom.jdbc。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    用于连接器的其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定 JDBC 目标的数据架构。

SparkConnectorTarget 结构

指定一个使用 Apache Spark 连接器的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • ConnectionName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    Apache Spark 连接器的连接名称。

  • ConnectorName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    Apache Spark 连接器的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    用于连接器的其他连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义 Spark 目标的数据架构。

BasicCatalogTarget 结构

指定使用 Amazon Glue 数据目录表的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    包含您要用作目标的表的数据库。此数据库必须已存在于数据目录中。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    定义输出数据架构的表。此表必须已存在于数据目录中。

MySQL CatalogTarget 结构

指定一个使用 MySQL 的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

PostgreSQL 结构 CatalogTarget

指定一个使用 Postgres SQL 的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

OracleSQL 结构 CatalogTarget

指定一个使用 Oracle SQL 的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

微软 SQL 结构 ServerCatalogTarget

指定一个使用 Microsoft SQL 的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

RedshiftTarget 结构

指定一个使用 Amazon Redshift 的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

  • RedshiftTmpDir – UTF-8 字符串,与 Custom string pattern #34 匹配。

    从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。

  • TmpDirIAMRole – UTF-8 字符串,与 Custom string pattern #34 匹配。

    拥有权限的 IAM 角色。

  • UpsertRedshiftOptions – 一个 UpsertRedshiftTargetOptions 对象。

    写入 Redshift 目标时用于配置 upsert 操作的一组选项。

AmazonRedshiftTarget 结构

指定一个 Amazon Redshift 目标。

字段
  • Name – UTF-8 字符串,与 Custom string pattern #37 匹配。

    Amazon Redshift 目标的名称。

  • Data – 一个 AmazonRedshiftNodeData 对象。

    指定 Amazon Redshift 目标节点的数据。

  • Inputs – UTF-8 字符串数组,不少于 1 个字符串,不超过 1 个字符串。

    作为数据目标输入的节点。

UpsertRedshiftTargetOptions 结构

写入 Redshift 目标时用于配置 upsert 操作的选项。

字段
  • TableLocation – UTF-8 字符串,与 Custom string pattern #34 匹配。

    Redshift 表的物理位置。

  • ConnectionName – UTF-8 字符串,与 Custom string pattern #34 匹配。

    用于写入 Redshift 的连接的名称。

  • UpsertKeys – UTF-8 字符串数组。

    用于确定是执行更新还是插入的键。

S3 CatalogTarget 结构

指定使用数据目录写入 Amazon S3 Amazon Glue 的数据目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • SchemaChangePolicy – 一个 CatalogSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

S3 GlueParquetTarget 结构

指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Path必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的单个 Amazon S3 路径。

  • Compression – UTF-8 字符串(有效值:snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • SchemaChangePolicy – 一个 DirectSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

CatalogSchemaChangePolicy 结构

一项指定爬网程序的更新行为的策略。

字段
  • EnableUpdateCatalog – 布尔值。

    当爬网程序发现已更改的架构时,是否使用指定的更新行为。

  • UpdateBehavior – UTF-8 字符串(有效值:UPDATE_IN_DATABASE | LOG)。

    爬网程序发现已更改的架构时的更新行为。

S3 DirectTarget 结构

指定一个写入 Amazon S3 的数据目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Path必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的单个 Amazon S3 路径。

  • Compression – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Format必填:UTF-8 字符串(有效值:json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA")。

    指定目标的数据输出格式。

  • SchemaChangePolicy – 一个 DirectSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

S3 HudiCatalogTarget 结构

指定写入数据目录中的 Hudi 数据源的目标。 Amazon Glue

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • AdditionalOptions必填:键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定用于连接器的其他连接选项。

  • SchemaChangePolicy – 一个 CatalogSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

S3 HudiDirectTarget 结构

指定写入中 Hudi 数据源的目标。 Amazon S3

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • Path必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的 Hudi 数据来源的Amazon S3 路径。

  • Compression必填:UTF-8 字符串(有效值:gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" | snappy="SNAPPY")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Format必填:UTF-8 字符串(有效值:json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA")。

    指定目标的数据输出格式。

  • AdditionalOptions必填:键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定用于连接器的其他连接选项。

  • SchemaChangePolicy – 一个 DirectSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

S3 DeltaCatalogTarget 结构

指定写入数据目录中的 Delta Lake Amazon Glue 数据源的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定用于连接器的其他连接选项。

  • SchemaChangePolicy – 一个 CatalogSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

S3 DeltaDirectTarget 结构

指定写入中三角洲湖数据源的目标 Amazon S3。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Path必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的 Delta Lake 数据来源的 Amazon S3 路径。

  • Compression必填:UTF-8 字符串(有效值:uncompressed="UNCOMPRESSED" | snappy="SNAPPY")。

    指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为 "gzip""bzip"

  • Format必填:UTF-8 字符串(有效值:json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA")。

    指定目标的数据输出格式。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定用于连接器的其他连接选项。

  • SchemaChangePolicy – 一个 DirectSchemaChangePolicy 对象。

    一项指定爬网程序的更新行为的策略。

DirectSchemaChangePolicy 结构

一项指定爬网程序的更新行为的策略。

字段
  • EnableUpdateCatalog – 布尔值。

    当爬网程序发现已更改的架构时,是否使用指定的更新行为。

  • UpdateBehavior – UTF-8 字符串(有效值:UPDATE_IN_DATABASE | LOG)。

    爬网程序发现已更改的架构时的更新行为。

  • Table – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定应用架构更改策略的数据库中的表。

  • Database – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定应用架构更改策略的数据库。

ApplyMapping 结构

指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Mapping必填:Mapping 对象的数组。

    指定数据源中的数据属性键与数据目标中的数据属性键的映射。

Mapping 结构

指定数据属性键的映射。

字段
  • ToKey – UTF-8 字符串,与 Custom string pattern #34 匹配。

    应用映射之后,列的名称应该是什么。可与 FromPath 相同。

  • FromPath – UTF-8 字符串数组。

    要修改的表或列。

  • FromType – UTF-8 字符串,与 Custom string pattern #34 匹配。

    要修改的数据的类型。

  • ToType – UTF-8 字符串,与 Custom string pattern #34 匹配。

    要修改的数据的数据类型。

  • Dropped – 布尔值。

    如果为 true(真),则删除列。

  • Children – Mapping 对象的数组。

    仅适用于嵌套数据结构。如果要更改父结构,但也要更改其子结构之一,则可填写此数据结构。它也是 Mapping,但其 FromPath 将是父结构的 FromPath 再加上来自此结构的 FromPath

    对于子部分,假设您拥有结构:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    您可以指定一个类似如下的 Mapping

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields 结构

指定一个选择要保留的数据属性键的转换。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Paths必填:UTF-8 字符串数组。

    指向数据结构中变量的 JSON 路径。

DropFields 结构

指定一个选择要删除的数据属性键的转换。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Paths必填:UTF-8 字符串数组。

    指向数据结构中变量的 JSON 路径。

RenameField 结构

指定一个重命名单个数据属性键的转换。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • SourcePath必填:UTF-8 字符串数组。

    指向源数据的数据结构中变量的 JSON 路径。

  • TargetPath必填:UTF-8 字符串数组。

    指向目标数据的数据结构中变量的 JSON 路径。

Spigot 结构

指定一个将数据样本写入 Amazon S3 存储桶的转换。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Path必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    Amazon S3 中的一个路径,在该路径中,转换会将数据集中的记录子集写入 Amazon S3 存储桶中的 JSON 文件。

  • Topk – 数字(整型),不超过 100。

    指定从数据集开头开始写入的一些记录。

  • Prob – 数字(双精度),不超过 1。

    选择任何给定记录的概率(最大值为 1 的十进制值)。值 1 表示从数据集中读取的每一行都应包括在示例输出中。

Join 结构

指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。

    通过其节点名称标识的数据输入。

  • JoinType必填:UTF-8 字符串(有效值:equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI")。

    指定要针对数据集执行的联接的类型。

  • Columns必填JoinColumn 对象的数组,不少于 2 个或不超过 2 个结构。

    要联接的两列的列表。

JoinColumn 结构

指定一个要联接的列。

字段
  • From必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要联接的列。

  • Keys必填:UTF-8 字符串数组。

    要联接的列的键。

SplitFields 结构

指定一个将数据属性键拆分为两个 DynamicFrames 的转换。输出是 DynamicFrames 的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Paths必填:UTF-8 字符串数组。

    指向数据结构中变量的 JSON 路径。

SelectFromCollection 结构

指定一个从 DynamicFrames 的集合中选择一个 DynamicFrame 的转换。输出是选定的 DynamicFrame

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Index必填:数字(整数),至多为“无”。

    DynamicFrame 要选择的索引。

FillMissingValues 结构

指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • ImputedPath必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指向推算的数据集的数据结构中变量的 JSON 路径。

  • FilledPath – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指向被填充的数据集的数据结构中变量的 JSON 路径。

Filter 结构

指定一个转换,它将基于筛选条件将一个数据集拆分为两个。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • LogicalOperator必填:UTF-8 字符串(有效值:AND | OR)。

    用于通过将键值与指定值进行比较来筛选行的运算符。

  • Filters必填:FilterExpression 对象的数组。

    指定一个筛选条件表达式。

FilterExpression 结构

指定一个筛选条件表达式。

字段
  • Operation必填:UTF-8 字符串(有效值:EQ | LT | GT | LTE | GTE | REGEX | ISNULL)。

    要在该表达式中执行的操作的类型。

  • Negated – 布尔值。

    是否要否定该表达式。

  • Values必填:FilterValue 对象的数组。

    筛选条件值的列表。

FilterValue 结构

表示 FilterExpression 的值的列表中的单个条目。

字段
  • Type必填:UTF-8 字符串(有效值:COLUMNEXTRACTED | CONSTANT)。

    筛选条件值的类型。

  • Value必填:UTF-8 字符串数组。

    要关联的值。

CustomCode 结构

指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是一个集合 DynamicFrames。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,至少 1 个字符串。

    通过其节点名称标识的数据输入。

  • Code必填: UTF-8 字符串,与 Custom string pattern #29 匹配。

    用于执行数据转换的自定义代码。

  • ClassName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    为自定义代码节点类定义的名称。

  • OutputSchemasGlueSchema 对象的数组。

    指定自定义代码转换的数据架构。

SparkSQL 结构

指定一个转换,您可以在其中使用 Spark SQL 语法输入 SQL 查询以转换数据。输出为单个 DynamicFrame

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,至少 1 个字符串。

    通过其节点名称标识的数据输入。您可以将表名称与要在 SQL 查询中使用的每个输入节点关联起来。您选择的名称必须满足 Spark SQL 命名限制。

  • SqlQuery必填: UTF-8 字符串,与 Custom string pattern #36 匹配。

    必须使用 Spark SQL 语法并返回单个数据集的 SQL 查询。

  • SqlAliases必填:SqlAlias 对象的数组。

    别名列表。别名允许您指定在 SQL 中为给定输入使用什么名称。例如,您有一个名为 “” MyDataSource 的数据源。如果你指定From为 MyDataSource、as SqlName,Alias那么在你的 SQL 中你可以这样做:

    select * from SqlName

    然后从中获取数据 MyDataSource。

  • OutputSchemasGlueSchema 对象的数组。

    指定 SparkSQL 转换的数据架构。

SqlAlias 结构

表示 SqlAliases 的值的列表中的单个条目。

字段

DropNullFields 结构

指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。默认情况下, Amazon Glue Studio 会识别空对象,但是某些值(例如空字符串、“null” 字符串、-1 个整数或其他占位符(例如零)不会自动识别为空值。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • NullCheckBoxList – 一个 NullCheckBoxList 对象。

    一种结构,它表示是否将某些值识别为要删除的 null 值。

  • NullTextListNullValueField 对象的数组,不超过 50 个结构。

    一种结构,它指定了一系列 NullValueField 结构,这些结构表示自定义空值,例如零或其他用作数据集独有的空占位符的值。

    仅当 null 占位符的值和数据类型与数据匹配时,DropNullFields 转换才会删除自定义 null 值。

NullCheckBoxList 结构

表示某些值是否被识别为要删除的 null 值。

字段
  • IsEmpty – 布尔值。

    指定将一个空字符串视为 null 值。

  • IsNullString – 布尔值。

    指定将一个拼写“null”一词的值视为 null 值。

  • IsNegOne – 布尔值。

    指定将一个为 -1 的整数值视为 null 值。

NullValueField 结构

表示自定义 null 值,如零值或其他值,用作数据集唯一的 null 占位符。

字段
  • Value必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    null 占位符的值。

  • Datatype必填:一个 DataType 对象。

    值的数据类型。

Datatype 结构

表示值的数据类型的结构。

字段

Merge 结构

指定一个转换,它将基于指定的主键将 DynamicFrame 与暂存 DynamicFrame 合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。

    通过其节点名称标识的数据输入。

  • Source必填: UTF-8 字符串,与 Custom string pattern #33 匹配。

    将与暂存 DynamicFrame 合并的源 DynamicFrame

  • PrimaryKeys必填:UTF-8 字符串数组。

    要匹配源和暂存动态帧中的记录的主键字段列表。

Union 结构

指定一个转换,它将两个或更多数据集中的行合并到单个结果中。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。

    节点 ID 输入到转换。

  • UnionType必填:UTF-8 字符串(有效值:ALL | DISTINCT)。

    指示 Union 转换的类型。

    指定ALL将数据源中的所有行联接到生成的行 DynamicFrame。生成的并集不会删除重复行。

    指定DISTINCT删除结果中的重复行 DynamicFrame。

PIIDetection 结构

指定用于识别、删除或掩盖 PII 数据的转换。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    节点 ID 输入到转换。

  • PiiType必填:UTF-8 字符串(有效值:RowAudit | RowMasking | ColumnAudit | ColumnMasking)。

    指示 PIIDetection 转换的类型。

  • EntityTypesToDetect必填:UTF-8 字符串数组。

    指示 PIIDetection 转换将标识为 PII 数据的实体类型。

    PII 类型的实体包括:PERSON_NAME、DATE、USA_SNN、EMAIL、USA_ITIN、USA_PASSPORT_NUMBER、PHONE_NUMBER、BANK_ACCOUNT、IP_ADDRESS、MAC_ADDRESS、USA_CPT_CODE、USA_HCPCS_CODE、USA_NATIONAL_DRUG_CODE、USA_MEDICARE_BENEFICIARY_IDENTIFIER、USA_HEALTH_INSURANCE_CLAIM_NUMBER、CREDIT_CARD、USA_NATIONAL_PROVIDER_IDENTIFIER、USA_DEA_NUMBER、USA_DRIVING_LICENSE

  • OutputColumnName – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指示包含该行中检测到的任何实体类型的输出列名称。

  • SampleFraction – 数字(双精度),不超过 1。

    指示要在扫描 PII 实体时采样的数据的部分。

  • ThresholdFraction – 数字(双精度),不超过 1。

    指示要将列标识为 PII 数据所必须满足的数据部分。

  • MaskValue – UTF-8 字符串,长度不超过 256 个字节,与 Custom string pattern #31 匹配。

    指示将替代检测到的实体的值。

Aggregate 结构

指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    指定要用作聚合转换输入的字段和行。

  • Groups必填:UTF-8 字符串数组。

    指定要对其进行分组的字段。

  • Aggs必填:AggregateOperation 对象的数组,不少于 1 个或不超过 30 个结构。

    指定要对指定字段执行的聚合函数。

DropDuplicates 结构

指定一个用于从数据集中删除重复数据行的转换。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    转换节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    通过其节点名称标识的数据输入。

  • Columns – UTF-8 字符串数组。

    重复时需要合并或删除的列的名称。

GovernedCatalogTarget 结构

指定使用数据目录写入 Amazon S3 Amazon Glue 的数据目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据目标的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为数据目标输入的节点。

  • PartitionKeys – UTF-8 字符串数组。

    使用一系列键指定本机分区。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要写入的数据库中的表的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要向其写入的数据库的名称。

  • SchemaChangePolicy – 一个 CatalogSchemaChangePolicy 对象。

    用于指定监管目录的更新行为的策略。

GovernedCatalogSource 结构

在受管控的数据目录中指定 Amazon Glue 数据存储。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据存储的名称。

  • Database必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库。

  • Table必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    要从中进行读取的数据库表。

  • PartitionPredicate – UTF-8 字符串,与 Custom string pattern #34 匹配。

    满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为 "" – 默认情况下为空。

  • AdditionalOptions – 一个 S3 SourceAdditionalOptions 对象。

    指定其他连接选项。

AggregateOperation 结构

指定在聚合转换中执行聚合所需的一组参数。

字段
  • Column必填:UTF-8 字符串数组。

    指定数据集上将应用聚合函数的列。

  • AggFunc必填:UTF-8 字符串(有效值:avg | countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | stddev_pop | sum | sumDistinct | var_samp | var_pop)。

    指定要应用的聚合函数。

    可能的聚合函数包括:avg countDinstinct、count、first、last、kurtosis、max、min、skewness、stddev_samp、stddev_pop、sum、sumDistinct、var_samp、var_pop

GlueSchema 结构

在无法确定架构时,指定一个用户定义的架构 Amazon Glue。

字段

GlueStudioSchemaColumn 结构

在 Amazon Glue 架构定义中指定单个列。

字段
  • Name必填:UTF-8 字符串,长度不超过 1024 个字节,与 Single-line string pattern 匹配。

    Amazon Glue Studio 架构中该列的名称。

  • Type – UTF-8 字符串,不超过 131072 个字节,与 Single-line string pattern 匹配。

    Amazon Glue Studio 架构中此列的配置单元类型。

GlueStudioColumn 结构

在 Amazon GlueStudio 中指定单列。

字段
  • Key必填: UTF-8 字符串,与 Custom string pattern #35 匹配。

    Amazon Glue Studio 中专栏的关键。

  • FullPath必填:UTF-8 字符串数组。

    Amazon Glue Studio 中该专栏的完整网址。

  • Type必填: UTF-8 字符串(有效值:array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY")。

    Amazon Glue Studio 中专栏的类型。

  • Children – 结构数组。

    Amazon Glue Studio 中父列的子项。

DynamicTransform 结构

指定执行动态转换所需的一组参数。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定动态转换的名称。

  • TransformName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定动态变换在 Amazon Glue Studio 可视化编辑器中显示的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    指定所需的动态转换输入。

  • ParametersTransformConfigParameter 对象的数组。

    指定动态转换的参数。

  • FunctionName必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定动态转换的函数名称。

  • Path必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定动态转换源和配置文件的路径。

  • Version – UTF-8 字符串,与 Custom string pattern #34 匹配。

    此字段未使用,将在未来版本中弃用。

  • OutputSchemasGlueSchema 对象的数组。

    指定动态转换的数据架构。

TransformConfigParameter 结构

指定动态转换的配置文件的参数。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定动态转换的配置文件的参数名称。

  • Type必填:UTF-8 字符串(有效值:str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL")。

    指定动态转换的配置文件中的参数类型。

  • ValidationRule – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定动态转换的配置文件的验证规则。

  • ValidationMessage – UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定动态转换的配置文件的验证消息。

  • Value – UTF-8 字符串数组。

    指定动态转换的配置文件的参数值。

  • ListType – UTF-8 字符串(有效值:str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL")。

    指定动态转换的配置文件的参数列表类型。

  • IsOptional – 布尔值。

    指定该参数在动态转换的配置文件中是否可选。

EvaluateDataQuality 结构

指定您的数据质量评估标准。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据质量评估的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    您的数据质量评估的输入。

  • Ruleset必填:UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节,与 Custom string pattern #32 匹配。

    数据质量评估的规则集。

  • Output – UTF-8 字符串(有效值:PrimaryInput | EvaluationResults)。

    您的数据质量评估的输出。

  • PublishingOptions – 一个 DQ ResultsPublishingOptions 对象。

    用于配置结果发布方式的选项。

  • StopJobOnFailureOptions – 一个 DQ StopJobOnFailureOptions 对象。

    用于配置在数据质量评估失败时如何停止作业的选项。

DQ 结构 ResultsPublishingOptions

用于配置数据质量评估结果发布方式的选项。

字段
  • EvaluationContext – UTF-8 字符串,与 Custom string pattern #33 匹配。

    评估的背景。

  • ResultsS3Prefix – UTF-8 字符串,与 Custom string pattern #34 匹配。

    Amazon S3 前缀位于结果之前。

  • CloudWatchMetricsEnabled – 布尔值。

    为您的数据质量结果启用指标。

  • ResultsPublishingEnabled – 布尔值。

    为您的数据质量结果启用发布。

DQ 结构 StopJobOnFailureOptions

用于配置在数据质量评估失败时如何停止作业的选项。

字段
  • StopJobOnFailureTiming – UTF-8 字符串(有效值:Immediate | AfterDataLoad)。

    如果您的数据质量评估失败,何时停止作业。选项有 “即时” 或 AfterDataLoad。

EvaluateDataQualityMultiFrame 结构

指定您的数据质量评估标准。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    数据质量评估的名称。

  • Inputs必填:UTF-8 字符串数组,至少 1 个字符串。

    您的数据质量评估的输入。此列表中的第一个输入是主数据来源。

  • AdditionalDataSources – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #37 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    除主数据来源之外的所有数据来源的别名。

  • Ruleset必填:UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节,与 Custom string pattern #32 匹配。

    数据质量评估的规则集。

  • PublishingOptions – 一个 DQ ResultsPublishingOptions 对象。

    用于配置结果发布方式的选项。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串(有效值:performanceTuning.caching="CacheOption" | observations.scope="ObservationsOption")。

    每个值是一个 UTF-8 字符串。

    用于配置转换运行时行为的选项。

  • StopJobOnFailureOptions – 一个 DQ StopJobOnFailureOptions 对象。

    用于配置在数据质量评估失败时如何停止作业的选项。

脚本结构

在 Amazon Glue 作业中使用 Amazon Glue DataBrew 配方的 Amazon Glue Studio 节点。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    Amazon Glue 工作室节点的名称。

  • Inputs必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。

    作为脚本节点的输入的节点,由 id 标识。

  • RecipeReference必填:一个 RecipeReference 对象。

    对节点使用的 DataBrew 配方的引用。

RecipeReference 结构

对 Amazon Glue DataBrew 食谱的引用。

字段
  • RecipeArn必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    食谱的 ARN。 DataBrew

  • RecipeVersion必填: UTF-8 字符串,长度不少于 1 个字节,不超过 16 个字节。

    DataBrew 食谱 RecipeVersion 中的那个。

SnowflakeNodeData 结构

指定 Studio 中雪花节点的 Amazon Glue 配置。

字段
  • SourceType – UTF-8 字符串,与 Custom string pattern #33 匹配。

    指定检索数据的指定方式。有效值:"table" "query"

  • Connection – 一个 选项 对象。

    指定与 Snowflake 端点 Amazon Glue 的数据目录连接。

  • Schema – UTF-8 字符串。

    为您的节点指定要使用的 Snowflake 数据库架构。

  • Table – UTF-8 字符串。

    为您的节点指定要使用的 Snowflake 表。

  • Database – UTF-8 字符串。

    为您的节点指定要使用的 Snowflake 数据库。

  • TempDir – UTF-8 字符串,与 Custom string pattern #34 匹配。

    当前未使用。

  • IamRole – 一个 选项 对象。

    当前未使用。

  • AdditionalOptions – 键值对的映射数组。

    每个键都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    每个值都是一个 UTF-8 字符串,与 Custom string pattern #34 匹配。

    指定传递给 Snowflake 连接器的其他选项。如果在此节点中以其他地方指定了选项,则优先使用该选项。

  • SampleQuery – UTF-8 字符串。

    用于检索 query 源类型数据的 SQL 字符串。

  • PreAction – UTF-8 字符串。

    在 Snowflake 连接器执行其标准操作之前运行的 SQL 字符串。

  • PostAction – UTF-8 字符串。

    在 Snowflake 连接器执行其标准操作之后运行的 SQL 字符串。

  • Action – UTF-8 字符串。

    指定在写入包含先前存在数据的表时要执行的操作。有效值: appendmergetruncatedrop

  • Upsert – 布尔值。

    在“操作”为 append 时使用。指定行已存在时的解析行为。如果为 true,则先前存在的行将被更新。如果为 false,则将插入这些行。

  • MergeAction – UTF-8 字符串,与 Custom string pattern #33 匹配。

    指定合并操作。有效值:simplecustom。如果是简单,则合并行为由 MergeWhenMatched MergeWhenNotMatched 定义。如果是自定义,则 MergeClause 由定义。

  • MergeWhenMatched – UTF-8 字符串,与 Custom string pattern #33 匹配。

    指定在合并时如何解析与先前存在的数据相匹配的记录。有效值: updatedelete

  • MergeWhenNotMatched – UTF-8 字符串,与 Custom string pattern #33 匹配。

    指定在合并时如何处理与先前存在的数据不匹配的记录。有效值:insertnone

  • MergeClause – UTF-8 字符串。

    指定自定义合并行为的 SQL 语句。

  • StagingTable – UTF-8 字符串。

    执行 merge 或更新插入 append 操作时使用的暂存表的名称。数据被写入此表,然后通过生成的后期操作将其移动到 table

  • SelectedColumns选项 对象的数组。

    指定在检测到合并和更新插入的匹配项时用于标识记录的组合列。带有 valuelabel description 键的结构列表。每个结构都描述了一列。

  • AutoPushdown – 布尔值。

    指定是否启用自动查询下推。如果启用了下推,那么当在 Spark 上运行查询时,如果可以将部分查询“下推”到 Snowflake 服务器,则会将其下推。这提高了某些查询的性能。

  • TableSchema选项 对象的数组。

    手动定义节点的目标架构。带有 valuelabeldescription 键的结构列表。每个结构都定义了一列。

SnowflakeSource 结构

指定 Snowflake 数据来源。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    Snowflake 数据来源的名称。

  • Data必填:一个 SnowflakeNodeData 对象。

    Snowflake 数据来源的配置。

  • OutputSchemasGlueSchema 对象的数组。

    为输出数据指定用户定义的架构。

SnowflakeTarget 结构

指定 Snowflake 目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    Snowflake 目标的名称。

  • Data必填:一个 SnowflakeNodeData 对象。

    指定 Snowflake 目标节点的数据。

  • Inputs – UTF-8 字符串数组,不少于 1 个字符串,不超过 1 个字符串。

    作为数据目标输入的节点。

ConnectorDataSource 结构

指定使用标准连接选项生成的源。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    此源节点的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    提供给底层 Amazon Glue 库的。connectionType此节点类型支持以下连接类型:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data必填:键值对的映射数组。

    每个键是一个 UTF-8 字符串。

    每个值是一个 UTF-8 字符串。

    指定节点连接选项的映射。您可以在 Amazon Glue 文档的 “连接参数” 部分中找到相应连接类型的标准连接选项。

  • OutputSchemasGlueSchema 对象的数组。

    指定该源的数据 Schema。

ConnectorDataTarget 结构

指定使用标准连接选项生成的目标。

字段
  • Name必填: UTF-8 字符串,与 Custom string pattern #37 匹配。

    此目标节点的名称。

  • ConnectionType必填: UTF-8 字符串,与 Custom string pattern #34 匹配。

    提供给底层 Amazon Glue 库的。connectionType此节点类型支持以下连接类型:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data必填:键值对的映射数组。

    每个键是一个 UTF-8 字符串。

    每个值是一个 UTF-8 字符串。

    指定节点连接选项的映射。您可以在 Amazon Glue 文档的 “连接参数” 部分中找到相应连接类型的标准连接选项。

  • Inputs – UTF-8 字符串数组,不少于 1 个字符串,不超过 1 个字符串。

    作为数据目标输入的节点。