在 Amazon Glue 中使用 grokLog 格式 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Glue 中使用 grokLog 格式

Amazon Glue 从源中检索数据,并将数据写入以各种数据格式存储和传输的目标。如果您的数据以结构松散的纯文本格式存储或传输,本文档将向您介绍供通过 Grok 模式使用 Amazon Glue 中的数据时的可用功能。

Amazon Glue 支持使用 Grok 模式。Grok 模式类似于正则表达式捕获组。这些组能识别纯文本文件中的字符序列模式,并为其指定类型和用途。在 Amazon Glue 中,其主要用途是读取日志。有关作者对 Grok 的说明,请参阅 Logstash Reference: Grok filter plugin(Logstash 参考:Grok 筛选器插件)。

读取 写入 流式处理读取 对小文件进行分组 作业书签
支持 不适用 支持 支持 不支持

grokLog 配置参考

您可以将以下 format_options 值与 format="grokLog" 结合使用:

  • logFormat – 指定与日志的格式匹配的 Grok 模式。

  • customPatterns – 指定在此处使用的其他 Grok 模式。

  • MISSING – 指定用于标识缺失值的信号。默认为 '-'

  • LineCount – 指定每个日志记录中的行数。默认值为 '1',并且目前仅支持单行记录。

  • StrictMode – 指定是否启用严格模式的布尔值。在严格模式下,读取器不会执行自动类型转换或恢复。默认值为 "false"