在 AWS Glue 控制台上使用分类器 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

在 AWS Glue 控制台上使用分类器

分类器确定您的数据架构。您可以编写一个自定义分类器并从 AWS Glue 指向该分类器。要查看您创建的所有分类器的列表,请在 https://console.amazonaws.cn/glue/ 中打开 AWS Glue 控制台,然后选择 Classifiers (分类器) 选项卡。

列表显示了有关每个分类器的以下属性:

分类器

分类器名称。创建分类器时,您必须为其提供名称。

分类。

由此分类器推断的表的分类类型。

上次更新

上次更新此分类器的时间。

从 AWS Glue 控制台中的 Classifiers (分类器) 列表中,您可以添加、编辑和删除分类器。要查看分类器的详细信息,请在列表中选择分类器名称。详细信息包括您创建分类器时定义的信息。

要在 AWS Glue 控制台中添加分类器,请选择 Add classifier (添加分类器)。在定义分类器时,您需要提供以下项目的值:

分类器名称

为您的分类器提供唯一名称。

分类。

对于 grok 分类器,描述分类的数据的格式或类型或提供自定义标签。

Grok 模式

对于 grok 分类器,此模式用于将您的数据解析为结构化架构。Grok 模式由描述您数据存储格式的命名模式组成。您使用 AWS Glue 提供的已命名内置模式和您编写且包含在 Custom patterns (自定义模式) 字段中的自定义模式编写此 grok 模式。尽管 grok 调试程序结果可能不完全匹配 AWS Glue 中的结果,我们仍建议您使用一些示例数据与 grok 调试程序来尝试您的模式。您可以在 Web 上查找 grok 调试程序。AWS Glue 提供的已命名的内置模式通常可与 Web 上提供的 grok 模式兼容。

通过以迭代方式添加已命名的模式来构建您的 grok 模式,并在调试程序中检查您的结果。此活动将使您确信,当 AWS Glue 爬网程序运行 grok 模式时会解析您的数据。

自定义模式

对于 grok 分类器,这些是您编写的 Grok pattern (Grok 模式) 的可选构建块。当内置模式无法解析您的数据时,您可能需要编写自定义模式。这些自定义模式在此字段中定义并在 Grok pattern (Grok 模式) 字段中引用。每个自定义模式在单独的行上定义。和内置模式一样,它包含一个已命名的模式定义,该定义使用正则表达式 (regex) 语法。

例如,以下是具有名称 MESSAGEPREFIX 后跟要应用于您的数据以确定其是否符合该模式的正则表达式定义。

MESSAGEPREFIX .*-.*-.*-.*-.*
行标签

对于 XML 分类器,这是定义 XML 文档中的表行的 XML 标签的名称。键入名称,不带尖括号 < >。名称必须符合标签的 XML 规则。

JSON 路径

对于 JSON 分类器,这是定义正在创建的表的行的对象、数组或值的 JSON 路径。使用 AWS Glue 支持的运算符在点或括号 JSON 语法中键入名称。有关更多信息,请参阅编写 JSON 自定义分类器中的运算符列表。

有关更多信息,请参阅编写自定义分类器