Apache Pig - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Apache Pig

Apache Pig 是一个开源 Apache 库,它在 Hadoop 的顶层运行,提供一种脚本语言,您可以用来转换大型数据集,而不必用底层计算机语言 (例如 Java) 编写复杂的代码。该库采用用一种名为 Pig Latin 的语言编写的SQL类似命令,并根据有向无环图 (DAGs) 或 MapReduce 程序将这些命令转换为 Tez 作业。Pig 可与各种格式的结构化和非结构化数据结合使用。有关 Pig 的详细信息,请参阅 http://pig.apache.org/

您可以通过交互方式或批处理方式执行 Pig 命令。要以交互方式使用 Pig,请创建SSH与主节点的连接并使用 Grunt shell 提交命令。要以批处理方式使用 Pig,请编写 Pig 脚本,将脚本上传到 Amazon S3,并作为集群步骤提交。有关向集群提交工作的更多信息,请参阅 Amazon EMR 管理指南中的向集群提交工作

当您使用 Pig 将输出写入 Amazon S3 中的HCatalog表时,请通过将mapred.output.direct.NativeS3FileSystemmapred.output.direct.EmrFileSystem属性设置为来禁用 Amazon EMR 直接写入false。有关更多信息,请参阅 使用 HCatalog。在 Pig 脚本中,可使用 SET mapred.output.direct.NativeS3FileSystem falseSET mapred.output.direct.EmrFileSystem false 命令。

下表列出了最新版本的亚马逊 EMR 7.x 系列中包含的 Pig 版本,以及亚马逊与 Pig 一起EMR安装的组件。

有关此版本中与 Pig 一起安装的组件的版本,请参阅 7.5.0 版本的组件版本

emr-7.5.0 的 Pig 版本信息
亚马逊EMR发行标签 Pig 版本 随 Pig 安装的组件

emr-7.5.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

下表列出了最新版本的亚马逊 EMR 6.x 系列中包含的 Pig 版本,以及亚马逊与 Pig 一起EMR安装的组件。

有关此发行版中随 Pig 安装的组件版本,请参阅发行版 6.15.0 组件版本

emr-6.15.0 的 Pig 版本信息
亚马逊EMR发行标签 Pig 版本 随 Pig 安装的组件

emr-6.15.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

下表列出了最新版本的亚马逊 EMR 5.x 系列中包含的 Pig 版本,以及亚马逊与 Pig 一起EMR安装的组件。

有关此发行版中随 Pig 安装的组件版本,请参阅发行版 5.36.2 组件版本

emr-5.36.2 的 Pig 版本信息
亚马逊EMR发行标签 Pig 版本 随 Pig 安装的组件

emr-5.36.2

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn