使用 DataBreW 连接到文本文件中的数据 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 DataBreW 连接到文本文件中的数据

您可以为以下输入文件配置以下格式选项: DataBrew 支持:

  • 逗号分隔值 (CSV) 文件

    • 分隔符

      默认分隔符是 .csv 文件的逗号。如果您的文件使用不同的分隔符,请为CSV 分隔符中的其他配置部分创建数据集时。.csv 文件支持以下分隔符:

      • 逗号 (,)

      • 冒号 (:)

      • 分号 (;)

      • 竖线 (|)

      • 制表符 (\t)

      • 脱字符 (^)

      • 反斜杠 (\)

      • 空格

    • 列标头值

      CSV 文件可以包含标题行作为文件的第一行。如果不是这样, DataBrew 为你创建一个标题行。

      • 如果 CSV 文件包含标题行,请选择将第一行视为标题. 如果这样做,CSV 文件的第一行将被视为包含列标题值。

      • 如果 CSV 文件不包含标题行,请选择添加默认标头. 如果你这样做, DataBrew 为文件创建标题行,但不会将第一行数据视为包含标题值。标头 DataBrew 创建由文件中每列的下划线和一个数字组成,格式为Column_1Column_2Column_3、、等。

  • JSON 文件

    DatabreW 支持 JSON 文件的两种格式:JSON 行和 JSON 文档。JSON Line 文件每行包含一行。在 JSON 文档文件中,所有行都包含在单个 JSON 结构或数组中。你可以在其他配置在创建 JSON 数据集时的部分。默认格式为 JSON 行。

  • Excel 文件

    以下内容适用于 DatabreW 中的 Excel 工作表:

    • 加载 Excel 表

      默认情况下, DataBrew 在 Excel 文件中加载第一张工作表。但是,您可以在其他配置部分创建 Excel 数据集时。

    • 列标头值

      您的 Excel 表格可以包含标题行作为文件的第一行,但如果没有, DataBrew 将为你创建一个标题行。

      • 如果 Excel 表格包含标题行,请选择将第一行视为标题. 如果这样做,Excel 工作表的第一行将被视为包含列标题值。

      • 如果 Excel 文件不包含标题行,请选择添加默认标头. 通过执行此操作,您可以指定 DatabReW 应该为文件创建标题行,而不是将第一行数据视为包含标题值。DatabReW 创建的标题包括一个下划线和文件中每列的数字,格式为Column_1Column_2Column_3、、等。