数据源支持的文件类型 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据源支持的文件类型

以下文件要求适用于存储在 Amazon S3 中的文件以及您从本地驱动器上传的文件。 DataBrew 支持以下文件格式:逗号分隔值 (CSV)、微软 Excel、JSON、ORC 和 Parquet。如果文件属于支持的类型之一,则可以使用带有非标准扩展名或没有扩展名的文件。

DataBrew 如果无法推断出文件类型,请确保自己选择正确的文件类型(CSV、Excel、JSON、ORC 或 Parquet)。支持压缩的 CSV、JSON、ORC 和 Parquet 文件,但是 CSV 和 JSON 文件必须包含压缩编解码器作为文件扩展名。如果要导入文件夹,则该文件夹中的所有文件类型必须相同。

下表显示了文件格式和支持的压缩算法。

注意

CSV、Excel 和 JSON 文件必须使用 Unicode 编码 (UTF-8)。

格式 文件扩展名(可选) 压缩文件的扩展名(必填)

以逗号分隔的值

.csv

.gz

.snappy

.lz4

.bz2

.deflate

微软 Excel 工作簿

.xlsx

不支持压缩

JSON(JSON 文档和 JSON 行)

.json, .jsonl

.gz

.snappy

.lz4

.bz2

.deflate

Apache ORC

.orc

.zlib

.snappy

Apache Parquet

.parquet

.gz

.snappy

.lz4