Amazon EMR
Amazon EMR 版本指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

Apache Pig

Amazon EMR 支持 Apache Pig,此编程框架可用于分析和转换大型数据集。有关 Pig 的详细信息,请转到 http://pig.apache.org/

Pig 是一种开源 Apache 库,在 Hadoop 的顶层上运行。该库使用一种叫做 Pig Latin 的语言编写的、类似 SQL 的命令,并基于有向无环图 (DAG) 或 MapReduce 程序将这些命令转换为 Tez 任务。您无需使用底层计算机语言 (例如 Java) 来编写复杂的 代码。

您可以通过交互方式或批处理方式执行 Pig 命令。要以交互方式使用 Pig,请创建到主节点的 SSH 连接,并使用 Grunt 外壳提交命令。要以批处理方式使用 Pig,请编写 Pig 脚本,将脚本上传到 Amazon S3,并作为集群步骤提交。有关向集群提交工作的更多信息,请参阅 Amazon EMR 管理指南 中的向集群提交工作

注意

当使用 Apache Pig 脚本将输出写入 Amazon S3 中的 Hcatalog 表时,可使用 SET mapred.output.direct.NativeS3FileSystem falseSET mapred.output.direct.EmrFileSystem false 命令在 Pig 脚本中禁用 Amazon EMR 直接写入功能。有关更多信息,请参阅 使用 HCatalog

适用于此版本 Amazon EMR 的 Pig 版本信息

应用程序 Amazon EMR 发行版标签 随此应用程序安装的组件

Pig 0.16.0

emr-5.4.0

emrfs、emr-ddb、emr-goodies、emr-kinesis、emr-s3-dist-cp、hadoop-client、hadoop-mapred、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-httpfs-server、hadoop-kms-server、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、hadoop-yarn-timeline-server、pig-client、tez-on-yarn