内置转换 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

内置转换

AWS Glue 提供一组内置转换,可用于处理数据。您可以从 ETL 脚本中调用这些转换。您的数据从转换转换为数据结构中的转换 Dynamicframe,这是ApacheSparkSQL的扩展 DataFrame...TheThethe DynamicFrame 包含您的数据,并引用其框架处理您的数据。有关这些转换的更多信息,请参阅AWS Glue PySpark 转换参考.

AWS Glue 提供以下内置转换:

ApplyMapping

将源列和数据类型映射到 DynamicFrame 返回到目标列和数据类型 DynamicFrame...指定映射参数,其中包含源列、源类型、目标列和目标类型。

DropFields

从A中删除字段 DynamicFrame...输出 DynamicFrame 包含的字段数量少于输入。您可以使用 paths 参数指定要删除的字段。TheThethe paths 使用点标记的框架树结构中的字段的参数点。例如,要删除树中字段A的子字段B,请键入 A.B 对于路径。

DropNullFields

从A中删除空字段 DynamicFrame...输出 DynamicFrame 在架构中不包含NULL类型的字段。

Filter

从A选择记录 DynamicFrame 并返回过滤 DynamicFrame...您指定一个函数,例如Lambda函数,该函数确定记录是否为输出(函数返回真值)或不是(函数返回错误)。

加入

两个等级的同等联盟 DynamicFrames...您指定每个帧的框架中的关键字段,以比较平均值。输出 DynamicFrame 包含密钥匹配的行。

Map

将函数应用到 DynamicFrame 并返回转换的 DynamicFrame...提供的函数应用到每个输入记录并将其转换为输出记录。映射转换可以添加字段、删除字段以及使用外部 API 操作执行查找。如果存在异常,则继续处理,并且会将记录标记为错误。

MapToCollection

应用转换为每个 DynamicFrameDynamicFrameCollection.

Relationalize

DynamicFrame 转换为关系 (行和列) 表单。基于数据的架构,这种转变将平铺嵌套结构并创建成本结构 DynamicFrames 从阵列结构。输出是可导致数据写入多个表的 DynamicFrames 的集合。

RenameField

在A字段中重命名 DynamicFrame...输出是 DynamicFrame 指定字段重命名。您需要为要重命名的字段提供新名称和在架构中的路径。

ResolveChoice

使用 ResolveChoice 指定在包含多个类型的值时如何处理列。您可以选择将列强制转换为单个数据类型、丢弃一个或多个类型,或者在单独的列或结构中保留所有类型。您可以为每一列选择不同的解决策略,或者指定应用于所有列的全局策略。

SelectFields

DynamicFrame 中选择要保留的字段。输出是 DynamicFrame 只有所选字段。您需要为要保留的字段提供在架构中的路径。

SelectFromCollection

选择一个 DynamicFrame 从系列的 DynamicFrames...输出是选定的 DynamicFrame...您向 DynamicFrame 选择。

Spigot

从A写入样本数据 DynamicFrame...输出是JSON文件 Amazon S3. 您指定 Amazon S3 位置以及如何样本 DynamicFrame...采样可以是从文件开始的指定记录数或用于选取记录的概率因子。

SplitFields

将字段分为两个 DynamicFrames...输出是 DynamicFrames:一个带有选定字段的字段,其中一个带有剩余字段。您需要为要选定的字段提供在架构中的路径。

SplitRows

根据谓词拆分 DynamicFrame 中的行。输出是两个 DynamicFrames 的集合:一个具有选定的行,另一个具有剩余的行。您可以根据架构中的字段提供比较。例如:A > 4.

Unbox

从A中取消字符串字段中的字符串 DynamicFrame...输出是 DynamicFrame 选定字符串字段重新格式化。该字符串字段可以解析并替换为几个字段。您需要为要重新设置格式的字符串字段及其当前格式类型提供在架构中的路径。例如,您可能拥有一个以JSON格式显示的字段CSV文件 {"a": 3, "b": "foo", "c": 1.2}...这种转换可以将JSON重新格式化为三个字段: int,A stringdouble.