开始使用自定义视觉转换 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开始使用自定义视觉转换

要创建自定义视觉转换,请执行以下步骤。

  • 第 1 步。创建 JSON 配置文件

  • 第 2 步。实施转换逻辑

  • 第 3 步。验证自定义视觉转换

  • 第 4 步。根据需要更新自定义视觉转换

  • 第 5 步。在 Amazon Glue Studio 中使用自定义视觉转换

首先设置 Amazon S3 存储桶,然后继续执行 Step 1(步骤 1)。Create a JSON config file(创建 JSON 配置文件)。

先决条件

客户提供的转换保存在客户 Amazon 账户中。该账户是这些转换的所有者,因此拥有查看(搜索和使用)、编辑或删除这些转换的所有权限。

要在 Amazon Glue Studio 中使用自定义转换,您需要在该 Amazon 账户中创建两个文件并将其上传到 Amazon S3 资产存储桶:

  • Python 文件 — 包含转换函数

  • JSON 文件 — 描述了转换。这也称作定义转换所需的配置文件。

要将文件配对在一起,请对两者使用相同的名称。例如:

  • myTransform.json

  • myTransform.py

或者,您可以通过提供包含该图标的 SVG 文件来为自定义视觉转换指定一个自定义图标。要将文件配对在一起,请对图标使用相同的名称:

  • myTransform.svg

Amazon Glue Studio 将使用它们各自的文件名自动匹配它们。对于任何现有模块,文件名不能相同。

Amazon Glue Studio 会将您的文件作为模块(例如,import myTransform)导入作业脚本。因此,您的文件名必须遵循为 python 变量名(标识符)设置的相同命名规则。具体而言,它们必须以字母或下划线开头,且完全由字母、数字和/或下划线组成。

注意

确保您的转换文件名与现有的已加载 python 模块(例如,sys, array, copy 等)不冲突,以避免意外的运行时问题。

设置 Amazon S3 存储桶

您创建的转换存储在 Amazon S3 中,归您的 Amazon 账户所有。您只需将文件(json 和 py)上传到当前存储所有作业脚本的 Amazon S3 资产文件夹(例如,s3://aws-glue-assets-<accountid>-<region>/transforms),即可创建新的自定义视觉转换。如果使用自定义图标,也请将其上传。默认情况下,Amazon Glue Studio 将读取同一 S3 存储桶中的 /transforms 文件夹中的所有 .json 文件。