Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如何处理压缩文件

Hadoop 会检查文件扩展名以检测压缩文件。Hadoop 支持的压缩类型是:gzip、bzip2 和 LZO。不需要执行任何额外操作来解压缩使用这些压缩类型的文件;Hadoop 会为您执行这些操作。

要索引 LZO 文件,您可以使用 hadoop-lzo 库,可以从 https://github.com/kevinweil/hadoop-lzo 上下载该库。请注意,因为这是第三方库,所以 Amazon EMR 不会为开发人员提供有关如何使用此工具的支持。有关使用信息,请参阅 hadoop-lzo readme 文件