数据源支持的文件类型
以下文件要求适用于存储在 Amazon S3 中的文件以及您从本地驱动器上传的文件。DataBrew 支持以下文件格式:逗号分隔值(CSV)、Microsoft Excel、JSON、ORC 和 Parquet。如果文件属于支持的类型之一,则可以使用带有非标准扩展名或没有扩展名的文件。
如果 DataBrew 无法推断出文件类型,请务必自行选择正确的文件类型(CSV、Excel、JSON、ORC 或 Parquet)。支持压缩的 CSV、JSON、ORC 和 Parquet 文件,但是 CSV 和 JSON 文件必须包含压缩编解码器作为文件扩展名。如果要导入文件夹,则该文件夹中的所有文件的文件类型必须相同。
下表中显示了文件格式和支持的压缩算法。
注意
必须使用 Unicode(UTF-8)对 CSV、Excel 和 JSON 文件进行编码。
| 格式。 | 文件扩展名(可选) | 压缩文件的扩展名(必需) |
|---|---|---|
|
逗号分隔的值 |
|
|
| Microsoft Excel 工作簿 |
|
不支持压缩 |
|
JSON(JSON 文档和 JSON Lines) |
|
|
| Apache ORC |
|
|
| Apache Parquet |
|
|