示例：创建 HCatalog 表并使用 Pig 写入该表

您可以创建 HCatalog 表并使用 Apache Pig 对此表进行写入，方式是通过使用 Amazon S3 中的数据源的 HCat Storer。 HCatalog 要求您禁用直接写入，否则操作将无提示地失败。要同时将 mapred.output.direct.NativeS3FileSystem 和 mapred.output.direct.EmrFileSystem 配置设置为 false，可以使用 mapred-site 分类，或者通过 Grunt shell 手动操作。以下示例显示一个使用 HCat CLI 创建的表，后跟 Grunt shell 中执行的命令（用于从 Amazon S3 中的示例数据文件填充表）。

要运行此示例，请使用 SSH 连接到主节点。

创建包含以下内容的 HCatalog 脚本文件wikicount.q，该文件将创建一个名为的 HCatalog 表wikicount。


CREATE EXTERNAL TABLE IF NOT EXISTS wikicount( 
col1 string, 
col2 bigint 
) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' 
STORED AS ORC 
LOCATION 's3://amzn-s3-demo-bucket/hcat/wikicount';

使用 HCat CLI 命令执行文件中的脚本。


hcat -f wikicount.q

接下来，使用 -useHCatalog 选项启动 Grunt shell，将配置设置为禁用直接写入，从 S3 位置加载数据，然后将结果写入 wikicount 表。


pig -useHCatalog
SET mapred.output.direct.NativeS3FileSystem false; 
SET mapred.output.direct.EmrFileSystem false; 
A = LOAD 's3://support.elasticmapreduce/training/datasets/wikistats_tiny/' USING PigStorage(' ') AS (Site:chararray, page:chararray, views:int, total_bytes:long); 
B = GROUP A BY Site; 
C = FOREACH B GENERATE group as col1, COUNT(A) as col2; 
STORE C INTO 'wikicount' USING org.apache.hive.hcatalog.pig.HCatStorer();

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用 HCatalog

HCatalog 发行版历史记录