使用 Hive 默认格式复制数据使用用户指定格式复制数据复制没有列映射的数据查看 Amazon S3 中的数据

在 DynamoDB 和 Amazon S3 之间复制数据

如果 DynamoDB 表中有数据，可以使用 Hive 将数据复制到 Amazon S3 存储桶。

如果要创建 DynamoDB 表数据的存档，则可以执行此操作。例如，假设有一个测试环境，在其中使用 DynamoDB 的基准测试数据集。可以将基准数据复制到 Amazon S3 存储桶，然后运行测试。之后，您可以将基准数据从 Amazon S3 存储桶恢复到 DynamoDB，重置测试环境。

如果已完成教程：使用 Amazon DynamoDB 和 Apache Hive，则已经有一个 Amazon S3 存储桶，包含 Amazon EMR 日志。如果知道存储桶的根路径，可以为本节的示例使用此存储桶：

通过以下链接打开 Amazon EMR 控制台：https://console.aws.amazon.com/emr。
对于名称，选择集群。
URI 在配置详细信息下面的日志 URI 中列出。
记下存储桶的完整路径。命名约定如下：

s3://aws-logs-accountID-region

accountID 是您的 Amazon 账户 ID，区域是存储桶的 Amazon 区域。

注意

对于这些示例，我们将在存储桶中使用子路径，如下例所示：

s3://aws-logs-123456789012-us-west-2/hive-test

以下过程假设您已完成教程中的步骤，并在 DynamoDB 中有一个名为 ddb_features 的外部表。

使用 Hive 默认格式复制数据

例从 DynamoDB 到 Amazon S3

使用 INSERT OVERWRITE 语句直接写入 Amazon S3。


INSERT OVERWRITE DIRECTORY 's3://aws-logs-123456789012-us-west-2/hive-test'
SELECT * FROM ddb_features;

Amazon S3 的数据文件如下所示：


920709^ASoldiers Farewell Hill^ASummit^ANM^A32.3564729^A-108.33004616135
1178153^AJones Run^AStream^APA^A41.2120086^A-79.25920781260
253838^ASentinel Dome^ASummit^ACA^A37.7229821^A-119.584338133
264054^ANeversweet Gulch^AValley^ACA^A41.6565269^A-122.83614322900
115905^AChacaloochee Bay^ABay^AAL^A30.6979676^A-87.97388530

每个字段由一个 SOH 字符分隔（标题开头，0x01）。在文件中，SOH 显示为 ^A。

例从 Amazon S3 到 DynamoDB

创建指向 Amazon S3 中未设置格式的数据的外部表。


CREATE EXTERNAL TABLE s3_features_unformatted
    (feature_id       BIGINT,
    feature_name      STRING ,
    feature_class     STRING ,
    state_alpha       STRING,
    prim_lat_dec      DOUBLE ,
    prim_long_dec     DOUBLE ,
    elev_in_ft        BIGINT)
LOCATION 's3://aws-logs-123456789012-us-west-2/hive-test';

将数据复制到 DynamoDB。


INSERT OVERWRITE TABLE ddb_features
SELECT * FROM s3_features_unformatted;

使用用户指定格式复制数据

如果要指定自己的字段分隔符，可以创建映射到 Amazon S3 存储桶的外部表。您可以使用此技术创建具有逗号分隔值 (CSV) 的数据文件。

例从 DynamoDB 到 Amazon S3

创建映射到 Amazon S3 的 Hive 外部表。执行此操作时，请确保数据类型与 DynamoDB 外部表的数据类型一致。


CREATE EXTERNAL TABLE s3_features_csv
    (feature_id       BIGINT,
    feature_name      STRING,
    feature_class     STRING,
    state_alpha       STRING,
    prim_lat_dec      DOUBLE,
    prim_long_dec     DOUBLE,
    elev_in_ft        BIGINT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION 's3://aws-logs-123456789012-us-west-2/hive-test';

从 DynamoDB 复制数据。


INSERT OVERWRITE TABLE s3_features_csv
SELECT * FROM ddb_features;

Amazon S3 的数据文件如下所示：


920709,Soldiers Farewell Hill,Summit,NM,32.3564729,-108.3300461,6135
1178153,Jones Run,Stream,PA,41.2120086,-79.2592078,1260
253838,Sentinel Dome,Summit,CA,37.7229821,-119.58433,8133
264054,Neversweet Gulch,Valley,CA,41.6565269,-122.8361432,2900
115905,Chacaloochee Bay,Bay,AL,30.6979676,-87.9738853,0

例从 Amazon S3 到 DynamoDB

使用单个 HiveQL 语句，可以用 Amazon S3 的数据填充 DynamoDB 表：


INSERT OVERWRITE TABLE ddb_features
SELECT * FROM s3_features_csv;

复制没有列映射的数据

可以采用原始格式从 DynamoDB 复制数据，写入 Amazon S3，无需指定任何数据类型或列映射。您可以使用此方法创建 DynamoDB 数据存档，存储在 Amazon S3。

例从 DynamoDB 到 Amazon S3

创建与 DynamoDB 表关联的外部表。（此 HiveQL 语句中没有 dynamodb.column.mapping。）


CREATE EXTERNAL TABLE ddb_features_no_mapping
    (item MAP<STRING, STRING>)
STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
TBLPROPERTIES ("dynamodb.table.name" = "Features");

创建另一个与 Amazon S3 存储桶关联的外部表。


CREATE EXTERNAL TABLE s3_features_no_mapping
    (item MAP<STRING, STRING>)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
LOCATION 's3://aws-logs-123456789012-us-west-2/hive-test';

将数据从 DynamoDB 复制到 Amazon S3。


INSERT OVERWRITE TABLE s3_features_no_mapping
SELECT * FROM ddb_features_no_mapping;

Amazon S3 的数据文件如下所示：


Name^C{"s":"Soldiers Farewell Hill"}^BState^C{"s":"NM"}^BClass^C{"s":"Summit"}^BElevation^C{"n":"6135"}^BLatitude^C{"n":"32.3564729"}^BId^C{"n":"920709"}^BLongitude^C{"n":"-108.3300461"}
Name^C{"s":"Jones Run"}^BState^C{"s":"PA"}^BClass^C{"s":"Stream"}^BElevation^C{"n":"1260"}^BLatitude^C{"n":"41.2120086"}^BId^C{"n":"1178153"}^BLongitude^C{"n":"-79.2592078"}
Name^C{"s":"Sentinel Dome"}^BState^C{"s":"CA"}^BClass^C{"s":"Summit"}^BElevation^C{"n":"8133"}^BLatitude^C{"n":"37.7229821"}^BId^C{"n":"253838"}^BLongitude^C{"n":"-119.58433"}
Name^C{"s":"Neversweet Gulch"}^BState^C{"s":"CA"}^BClass^C{"s":"Valley"}^BElevation^C{"n":"2900"}^BLatitude^C{"n":"41.6565269"}^BId^C{"n":"264054"}^BLongitude^C{"n":"-122.8361432"}
Name^C{"s":"Chacaloochee Bay"}^BState^C{"s":"AL"}^BClass^C{"s":"Bay"}^BElevation^C{"n":"0"}^BLatitude^C{"n":"30.6979676"}^BId^C{"n":"115905"}^BLongitude^C{"n":"-87.9738853"}

每个字段以 STX 字符（文本开头，0x02）开头，以 ETX 字符（文本末尾，0x03）结尾。在文件中，STX 显示为 ^B，ETX 显示为 ^C。

例从 Amazon S3 到 DynamoDB

使用单个 HiveQL 语句，可以用 Amazon S3 的数据填充 DynamoDB 表：


INSERT OVERWRITE TABLE ddb_features_no_mapping
SELECT * FROM s3_features_no_mapping;

查看 Amazon S3 中的数据

如果使用 SSH 连接主节点，则可以使用 Amazon Command Line Interface (Amazon CLI) 访问 Hive 写入 Amazon S3 的数据。

以下步骤假设已使用本节介绍的一种方法，将数据从 DynamoDB 复制到 Amazon S3。

如果当前处于 Hive 命令提示符下，请退出到 Linux 命令提示符。
```
hive> exit;
```
列出 Amazon S3 存储桶的 hive-test 目录内容。（这是 Hive 从 DynamoDB 复制数据的位置。）
```
aws s3 ls s3://aws-logs-123456789012-us-west-2/hive-test/
```
结果应如下所示：

2016-11-01 23:19:54 81983 000000_0

文件名 (000000_0) 由系统生成。
（可选）可以将数据文件从 Amazon S3 复制到主节点的本地文件系统。执行此操作后，可以使用标准 Linux 命令行实用程序处理文件中的数据。
```
aws s3 cp s3://aws-logs-123456789012-us-west-2/hive-test/000000_0 .
```
结果应如下所示：

download: s3://aws-logs-123456789012-us-west-2/hive-test/000000_0 to ./000000_0

注意
主节点的本地文件系统容量有限。请勿将此命令用于大于本地文件系统可用空间的文件。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

在 DynamoDB 和原生 Hive 表之间复制数据

在 DynamoDB 和 HDFS 之间复制数据

在 DynamoDB 和 Amazon S3 之间复制数据

注意

主题

使用 Hive 默认格式复制数据

例 从 DynamoDB 到 Amazon S3

例 从 Amazon S3 到 DynamoDB

使用用户指定格式复制数据

例 从 DynamoDB 到 Amazon S3

例 从 Amazon S3 到 DynamoDB

复制没有列映射的数据

例 从 DynamoDB 到 Amazon S3

例 从 Amazon S3 到 DynamoDB

查看 Amazon S3 中的数据

注意

例从 DynamoDB 到 Amazon S3

例从 Amazon S3 到 DynamoDB

例从 DynamoDB 到 Amazon S3

例从 Amazon S3 到 DynamoDB

例从 DynamoDB 到 Amazon S3

例从 Amazon S3 到 DynamoDB