本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 DataBreW 连接到文本文件中的数据
您可以为以下输入文件配置以下格式选项: DataBrew 支持:
-
逗号分隔值 (CSV) 文件
分隔符
默认分隔符是 .csv 文件的逗号。如果您的文件使用不同的分隔符,请为CSV 分隔符中的其他配置部分创建数据集时。.csv 文件支持以下分隔符:
逗号 (,)
冒号 (:)
分号 (;)
竖线 (|)
制表符 (\t)
脱字符 (^)
反斜杠 (\)
空格
列标头值
CSV 文件可以包含标题行作为文件的第一行。如果不是这样, DataBrew 为你创建一个标题行。
如果 CSV 文件包含标题行,请选择将第一行视为标题. 如果这样做,CSV 文件的第一行将被视为包含列标题值。
如果 CSV 文件不包含标题行,请选择添加默认标头. 如果你这样做, DataBrew 为文件创建标题行,但不会将第一行数据视为包含标题值。标头 DataBrew 创建由文件中每列的下划线和一个数字组成,格式为
Column_1
、Column_2
、Column_3
、、等。
JSON 文件
DatabreW 支持 JSON 文件的两种格式:JSON 行和 JSON 文档。JSON Line 文件每行包含一行。在 JSON 文档文件中,所有行都包含在单个 JSON 结构或数组中。你可以在其他配置在创建 JSON 数据集时的部分。默认格式为 JSON 行。
Excel 文件
以下内容适用于 DatabreW 中的 Excel 工作表:
加载 Excel 表
默认情况下, DataBrew 在 Excel 文件中加载第一张工作表。但是,您可以在其他配置部分创建 Excel 数据集时。
列标头值
您的 Excel 表格可以包含标题行作为文件的第一行,但如果没有, DataBrew 将为你创建一个标题行。
如果 Excel 表格包含标题行,请选择将第一行视为标题. 如果这样做,Excel 工作表的第一行将被视为包含列标题值。
如果 Excel 文件不包含标题行,请选择添加默认标头. 通过执行此操作,您可以指定 DatabReW 应该为文件创建标题行,而不是将第一行数据视为包含标题值。DatabReW 创建的标题包括一个下划线和文件中每列的数字,格式为
Column_1
、Column_2
、Column_3
、、等。