并行运行多个步骤的注意事项 - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

并行运行多个步骤的注意事项

  • 为集群选择步骤并发级别时,必须考虑主节点实例类型是否满足用户工作负载的内存要求。主步骤执行程序进程在每个步骤的主节点上运行。与一次运行一个步骤相比,并行运行多个步骤需要主节点有更多的内存和更高的 CPU 利用率。

  • 要对并发步骤实现复杂的计划和资源管理,您可以使用 YARN 计划功能(如 FairSchedulerCapacityScheduler)。例如,您可以将 FairSchedulerqueueMaxAppsDefault 集合一起使用,以防止一次运行超过特定数量的作业。

  • 步骤并发级别取决于资源管理器的配置。例如,如果 YARN 配置的并行度仅为 5,则即使 StepConcurrencyLevel 设置为 10,您也只能让五个 YARN 应用程序并行运行。有关配置资源管理器的更多信息,请参阅 Amazon EMR 版本指南 中的配置应用程序

  • 使用 EMR 自动扩展可以基于 YARN 资源向上和向下扩展,以防止资源争用。有关更多信息,请参阅 Amazon EMR 管理指南 中的在 Amazon EMR 中使用自动扩展

  • 当您降低步骤并发级别时,EMR 允许在减少步骤数之前完成任何正在运行的步骤。如果资源因集群运行的并发步骤太多而耗尽,我们建议手动取消所有正在运行的步骤以释放资源。