本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在状态机中协调大规模parallel 工作负载
使用 Step Functions,您可以协调大规模parallel 工作负载以执行任务,例如按需处理半结构化数据。这些parallel 工作负载允许您同时处理存储在 Amazon S3 中的大规模数据源。例如,您可以处理包含大量数据的单个 JSON 或 CSV 文件。或者,可以处理一大大大大大大大大大大大大组 Amazon S3
重要
目前,该Map
州的分布式模式仅在商业区域可用。有关在工作流程中包含Map
状态的信息,请参阅映射。
要在工作流程中设置大规模parallel 工作负载,请在分布式模式下添加Map
状态。地图状态会同时处理数据集中的项目。在分布式模式下,该Map
状态允许高并发处理。在分布式模式下,Map
状态以迭代方式处理数据集中的项目,称为子工作流执行。您可以指定可以parallel 运行的子工作流程执行次数。如果您未指定,Step Functions 会parallel 运行 10,000 个子工作流的parallel 执行。有关Map
状态及其分布式模式的更多信息,请参阅Map状态和在分布式模式下使用地图状态。
当您未指定分布式模式时,该Map
状态将在默认的内联模式下运行,该模式最多支持 40 次并发迭代。有关这两种Map
状态的更多信息,请参阅地图状态处理模式。
要开始协调工作流程中的大规模parallel 工作负载,请参阅使用分布式地图复制大规模 CSV 数据教程。
下图说明了如何在工作流程中设置大规模的parallel 工作负载。

提示
要向您Amazon Web Services 账户部署使用分布式地图状态的工作流程示例,请参阅 The Workshop 模块 14-数据处理中的使用分布式地图进行大规模并行Amazon Step Functions化
本主题中使用的关键术语
- 分布式概念
-
Map
状态的处理模式。在此模式下,Map
状态的每次迭代都作为子工作流执行运行,从而实现高并发性。每个子工作流程的执行都有自己的执行历史记录,该历史记录与父工作流程的执行历史是分开的。此模式支持从大大大大的 Amazon S3 分批读取输入。 - 分布式地图状态
-
一种
Map
状态设置为分布式处理模式。 - 地图工作流
Map
状态运行的一组步骤。- 执行子工作流
-
分布式地图状态的迭代。子工作流程执行有自己的执行历史记录,该历史记录与父工作流程的执行历史是分开的。
- 地图运行
-
在分布式模式下运行
Map
状态时,Step Functions 会创建 Map Run 资源。Map Run 是指分布式地图状态启动的一组子工作流执行以及控制这些执行的运行时设置。Step Functions 会为你的 Amazon Resource Name (ARN)。您可以在 Step Functions 控制台中查看 Map Run。您也可以调用DescribeMapRun
API 操作。Map Run 还会向发送指标 CloudWatch。有关更多信息,请参阅 检查 Map Run。