数据源支持的文件类型 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据源支持的文件类型

以下文件要求适用于存储在 Amazon S3 中的文件以及从本地驱动器上传的文件。 DataBrew 支持以下文件格式:逗号分隔值 (CSV)、微软 Excel、JSON、ORC 和 Parquet。如果文件属于受支持类型之一,则可以使用具有非标准扩展名的文件,也可以使用无扩展名的文件。

如果 DataBrew 无法推断文件类型,请确保自己选择正确的文件类型(CSV、Excel、JSON、ORC 或拼花)。支持压缩的 CSV、JSON、ORC 和 Pucia 文件,但 CSV 和 JSON 文件必须包含压缩编解码器作为文件扩展名。如果要导入文件夹,则该文件夹中的所有文件必须具有相同的文件类型。

下表中显示了文件格式和受支持的压缩算法。

注意

CSV、Excel 和 JSON 文件必须使用 Unicode (UTF-8) 进行编码。

格式 文件扩展名(可选) 压缩文件的扩展名(必填)

逗号分隔值

.csv

.gz

.snappy

.lz4

.bz2

.deflate

Microsoft Excel 工作簿

.xlsx

无压缩支持

JSON(JSON 文档和 JSON 行)

.json, .jsonl

.gz

.snappy

.lz4

.bz2

.deflate

Apache ORC

.orc

.zlib

.snappy

Apache Parquet

.parquet

.gz

.snappy

.lz4