Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

在 DynamoDB 中优化 Amazon EMR 操作的性能

对 DynamoDB 表的 Amazon EMR 操作可视为读取操作,并且受表的预配置吞吐量设置的约束。Amazon EMR 实现其自身逻辑,尝试平衡 DynamoDB 表上的负载,以便最大程度降低超出预配置吞吐量的可能性。每个 Hive 查询结束时,Amazon EMR 均返回有关用于处理查询的cluster的信息,包括超出预配置的吞吐量的次数。您可以使用此信息以及有关 DynamoDB 吞吐量的 CloudWatch 指标,在后续请求中更好地管理 DynamoDB 表上的负载。

以下因素会影响 Hive 在处理 DynamoDB 表时的查询性能。

预置的读取容量单位

对 DynamoDB 表运行 Hive 查询时,您需要确保已预配置足量的读取容量单位。

例如,假设您为 DynamoDB 表预配置了 100 个读取容量单位。这将允许您每秒执行 100 次读取或读取 409600 字节。如果该表包含 20GB 的数据 (21474836480 字节) 并且您的 Hive 查询执行全表扫描,则可以估算执行查询将花费多长时间:

21474836480/409600 = 52429 秒 = 14.56 小时

减少所需时间的唯一方法是调整源 DynamoDB 表的读取容量单位。将更多节点添加到 Amazon EMR cluster不会有所帮助。

在 Hive 输出中,当一个或多个映射器进程已完成时,将更新完成百分比。对于预配置的读取容量设置较低的大型 DynamoDB 表,完成百分比输出可能会很长时间不更新;在上面的示例中,作业将在几个小时内显示为完成 0%。有关任务进度的详细状态,请转到 Amazon EMR 控制台;您将可以查看单个映射器任务状态和数据读取统计数据。

您还可以登录主节点 (master node) 的 Hadoop 界面,查看 Hadoop 统计数据。该界面将向您显示单个映射任务状态和一些数据读取统计数据。有关更多信息,请参阅 Amazon EMR 管理指南 中的 托管在主节点上的 Web 界面

读取百分比设置

默认情况下,Amazon EMR 根据当前的预配置吞吐量管理对您的 DynamoDB 表的请求负载。但是,当 Amazon EMR 返回的作业相关信息中包括预配置的吞吐量远远超出响应数时,您可以在设置 Hive 表时使用 dynamodb.throughput.read.percent 参数调整默认读取速率。有关设置读取百分比参数的更多信息,请参阅 Hive 选项

写入百分比设置

默认情况下,Amazon EMR 根据当前的预配置吞吐量管理对您的 DynamoDB 表的请求负载。但是,当 Amazon EMR 返回的作业相关信息中包括预配置的吞吐量远远超出响应数时,您可以在设置 Hive 表时使用 dynamodb.throughput.write.percent 参数调整默认写入速率。有关设置写入百分比参数的更多信息,请参阅 Hive 选项

重试持续时间设置

默认情况下,如果在两分钟 (默认重试时间间隔) 内没有返回结果,Amazon EMR 将重新运行 Hive 查询。在运行 Hive 查询时,您可以通过设置 dynamodb.retry.duration 参数来调整此时间间隔。有关设置写入百分比参数的更多信息,请参阅 Hive 选项

映射任务数

Hadoop 为了处理导出和查询 DynamoDB 中所存储数据的请求而启动的映射器守护程序的读取速率控制在每秒最多 1 MiB 之内,以限制所用的读取容量。如果在 DynamoDB 上有更多预配置的吞吐量可用,则可以通过增加映射器守护程序数来改善 Hive 导出和查询操作的性能。为此,您可以增加cluster中的 EC2 实例数,或者增加每个 EC2 实例上运行的映射器守护程序数。

您可以通过停止当前cluster,然后使用更大的 EC2 实例数重新启动它,来增加该cluster中的 EC2 实例数。可在 Configure EC2 Instances (配置 EC2 实例) 对话框中指定 EC2 实例数 (如果您从 Amazon EMR 控制台启动cluster)。也可以使用 --num-instances 选项指定 EC2 实例数 (如果您从 CLI 启动cluster)。

实例上运行的映射任务数取决于 EC2 实例类型。有关受支持 EC2 实例类型及每种实例类型提供的映射器数的更多信息,请参阅 任务配置。其中,每个受支持的配置都有一个“任务配置”部分。

增加映射器守护程序数的另一个方法是,将 Hadoop 的 mapreduce.tasktracker.map.tasks.maximum 配置参数更改为更大的值。此方法的优点是无需增加 EC2 实例的数量或大小即可为您提供更多映射器,从而为您节省资金。缺点是将此值设置得过大可能导致cluster中的 EC2 实例用尽内存。要设置 mapreduce.tasktracker.map.tasks.maximum,请启动cluster并为 mapreduce.tasktracker.map.tasks.maximum 指定一个值,作为 mapred-site 配置分类的属性。如下例所示。有关更多信息,请参阅 配置应用程序

{ "configurations": [ { "classification": "mapred-site", "properties": { "mapred.tasktracker.map.tasks.maximum": "10" } } ] }

并行数据请求

从多个用户或多个应用程序向单个表发出的多个数据请求可能会耗尽预配置的读取吞吐量并降低性能。

处理持续时间

DynamoDB 中的数据一致性取决于在每个节点上执行读取和写入操作的顺序。当正在进行 Hive 查询时,其他应用程序可能会将新数据加载到 DynamoDB 表,或者修改或删除现有数据。在这种情况下,Hive 查询的结果可能无法反映查询正在运行时对数据所做的更改。

避免超出吞吐量

针对 DynamoDB 运行 Hive 查询时,请注意不要超出您的预配置吞吐量,因为这会用尽应用程序调用 DynamoDB::Get 时所需的容量。为确保不会发生这种情况,您应通过查看日志并在 Amazon CloudWatch 中监控指标,定期监控读取量并限制应用程序对 DynamoDB::Get 的调用。

请求时间

调度 Hive 查询以便在对 DynamoDB 表的需求较低时访问 DynamoDB 表,可以改善性能。举例来说,如果应用程序的大多数用户住在旧金山,您可以选择在大部分用户正在睡觉的太平洋标准时间凌晨 4 点导出每日数据,并且不更新 DynamoDB 数据库中的记录。

基于时间的表

如果将数据组织为一系列基于时间的 DynamoDB 表 (例如,每天一个表)。您可以在该表不再处于活动状态时导出数据。您可以利用此方法将数据持续备份到 Amazon S3 中。

已存档数据

如果您计划针对 DynamoDB 中存储的数据运行多个 Hive 查询,并且您的应用程序可以接纳已存档数据,那么您可能会希望将数据导出到 HDFS 或 Amazon S3,然后针对数据的副本 (而非 DynamoDB) 运行 Hive 查询。这将节省读取操作和预配置的吞吐量。