使用 DataBrew 连接到文本文件中的数据
您可以为 DataBrew 支持的输入文件配置以下格式选项:
-
逗号分隔值(CSV)文件
分隔符
对于 .csv 文件,默认分隔符是逗号。如果您的文件使用不同的分隔符,请在创建数据集时在其他配置部分中为 CSV 分隔符选择分隔符。.csv 文件支持以下分隔符:
逗号(,)
冒号(:)
分号(;)
竖线(|)
制表符(\t)
插入符号(^)
反斜杠(\)
空格
列标题值
您的 CSV 文件可以包含标题行作为文件的第一行。如果不存在,则 DataBrew 会为您创建标题行。
如果 CSV 文件包含标题行,请选择将第一行当作标题。如果这样做,则 CSV 文件的第一行将被视为包含列标题值。
如果 CSV 文件不包含标题行,请选择添加默认标题。如果这样做,DataBrew 会为该文件创建一个标题行,且不会将第一行数据视为包含标题值。对于文件中每一列,DataBrew 创建的标题均由下划线和数字组成,格式为
Column_1、Column_2和Column_3等。
JSON 文件
DataBrew 支持两种格式的 JSON 文件,即 JSON Lines 和 JSON 文档。JSON Lines 文件每行包含一行数据。在 JSON 文档文件中,所有行都包含在单个 JSON 结构或数组中。创建 JSON 数据集时,可以在其他配置部分指定您的 JSON 文件类型。默认格式为 JSON Lines。
Excel 文件
以下各项适用于 DataBrew 中的 Excel 工作表:
Excel 工作表加载
默认情况下,DataBrew 加载 Excel 文件中的第一个工作表。但是,在创建 Excel 数据集时,可以在其他配置部分指定不同的工作表编号或工作表名称。
列标题值
您的 Excel 工作表可以包含标题行作为文件的第一行,但如果没有,DataBrew 将为您创建一个标题行。
如果 Excel 工作表包含标题行,请选择将第一行当作标题。如果这样做,Excel 工作表的第一行将被视为包含列标题值。
如果 Excel 文件不包含标题行,请选择添加默认标题。这样,请指定 DataBrew 应为该文件创建一个标题行,且不将第一行数据视为包含标题值。对于文件中每一列,DataBrew 创建的标题均由下划线和数字组成,格式为
Column_1、Column_2和Column_3等。