本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自动生成 ETL 脚本 API
ETL 脚本生成 API 介绍用于在 AWS Glue 中生成 ETL 脚本的数据类型和 API。
数据类型
CodeGenNode结构
表示有向无环图 (DAG) 中的节点
Fields
-
Id
–必需: UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Identifier string pattern 匹配。节点图中唯一的节点标识符。
-
该节点的类型。
-
Args
–必需: 对象的数组,不超过 50 个结构。CodeGenNodeArg节点的属性,采用名称-值对形式。
-
节点的行号。
CodeGenNodeArg结构
节点的参数或属性。
CodeGenEdge结构
表示有向无环图 (DAG) 中的方向边缘。
Fields
-
Source
–必需: UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Identifier string pattern 匹配。边缘开始的节点的 ID。
-
Target
–必需: UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Identifier string pattern 匹配。边缘结束的节点的 ID。
-
边缘的目标。
Location 结构
资源的位置。
Fields
-
Jdbc
– 对象的数组,不超过 50 个结构。CodeGenNodeArgJDBC 位置。
-
S3
– 对象的数组,不超过 50 个结构。CodeGenNodeArgAmazon Simple Storage Service (Amazon S3) 位置
-
DynamoDB
– 对象的数组,不超过 50 个结构。CodeGenNodeArgAmazon DynamoDB 表位置。
CatalogEntry结构
在 AWS Glue 数据目录中指定表定义。
Fields
-
DatabaseName
–必需: UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。表元数据所在的数据库。
-
TableName
–必需: UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。相关表的名称。
MappingEntry结构
定义映射。
Fields
Operations
CreateScript 操作 (Python:create_script)
将有向无环图 (DAG) 转换为代码。
Request
-
DagNodes
– 对象的数组。CodeGenNodeDAG 中的节点的列表。
-
DagEdges
– 对象的数组。CodeGenEdgeDAG 中的边缘的列表。
-
Language
– UTF-8 字符串(有效值:PYTHON
|SCALA
)。从 DAG 生成的代码的编程语言。
Errors
-
InvalidInputException
-
InternalServiceException
-
OperationTimeoutException
GetDataflowGraph 操作 (Python:get_dataflow_graph)
将 Python 脚本转换为有向无环图 (DAG)。
Response
-
DagNodes
– 对象的数组。CodeGenNode生成的 DAG 中的节点的列表。
-
DagEdges
– 对象的数组。CodeGenEdge生成的 DAG 中的边缘的列表。
Errors
-
InvalidInputException
-
InternalServiceException
-
OperationTimeoutException
GetMapping 操作(Python:get_mapping)
创建映射。
Request
-
Source
–必需: 一个 CatalogEntry 对象。指定源表。
-
Sinks
– 对象的数组。CatalogEntry目标表的列表。
-
Location
– 一个 Location 对象。映射的参数。
Response
-
Mapping
–必需: MappingEntry 对象数组。指定目标的映射的列表。
Errors
-
InvalidInputException
-
InternalServiceException
-
OperationTimeoutException
-
EntityNotFoundException
GetPlan 操作 (Python:get_plan)
获取代码以执行指定的映射。
Request
-
Mapping
–必需: MappingEntry 对象数组。从源表到目标表的映射的列表。
-
Source
–必需: 一个 CatalogEntry 对象。源表。
-
Sinks
– 对象的数组。CatalogEntry目标表。
-
Location
– 一个 Location 对象。映射的参数。
-
Language
– UTF-8 字符串(有效值:PYTHON
|SCALA
)。用于执行映射的代码的编程语言。
-
AdditionalPlanOptionsMap
– 键值对的映射数组。每个键是一个 UTF-8 字符串。
每个值是一个 UTF-8 字符串。
用于保存其他可选键值参数的映射。
目前,支持以下键/值对:
-
inferSchema
– 对于 AWS Glue 作业生成的默认脚本,指定是将inferSchema
设置为 true 还是 false。例如,要将inferSchema
设置为 true,请传递以下键值对:--additional-plan-options-map '{"inferSchema":"true"}'
-
Errors
-
InvalidInputException
-
InternalServiceException
-
OperationTimeoutException