数据处理 - Amazon Step Functions
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据处理

随着数据量不断增长,数据来源越来越多样化,各个组织发现他们需要快速处理这些数据,才能确保他们做出更快、更明智的业务决策。为了大规模处理数据,组织需要灵活地调配资源,来管理他们从移动设备、应用程序、卫星、市场营销和销售、运营数据存储、基础设施等接受的信息。

Step Functions 提供了成功管理数据处理工作流所需的可扩展性、可靠性和可用性。Step Functions 可以横向扩展并提供容错工作流,因此您可以使用 Step Functions 管理数百万个并发执行。使用并行执行(例如 Step Functions 的 Parallel 状态类型)或动态并行(使用 Step Functions 的 Map 状态类型)可更快地处理数据。作为工作流的一部分,您可以使用 Map 状态对静态数据存储(如 Amazon S3 存储桶)中的对象进行迭代。Step Functions 还可以帮助您轻松重试失败的执行,或者选择特定的方式来处理错误,而无需管理复杂的流程。

根据数据处理的需求,Step Functions 可直接与 Amazon 提供的其他数据处理服务集成,例如用于批处理的 Amazon Batch、用于大数据处理的 Amazon EMR、用于数据准备的 Amazon Glue、用于数据分析的 Athena,以及用于计算的 Amazon Lambda

客户使用 Step Functions 完成的数据处理工作流类型的示例包括:

文件、视频和图像处理

  • 将一系列视频文件转换为大小或分辨率不同的文件,从而适配显示这些文件的设备,例如手机、笔记本电脑或电视。

  • 将用户上传的大量照片转换为缩略图或各种分辨率的图像,以便在用户的网站上显示。

  • 将半结构化数据(例如 CSV 文件)与非结构化数据(例如发票)结合起来,生成每月发送给业务利益相关者的业务报告。

  • 将卫星收集的地球观测数据转换为相互对应的格式,然后添加在地球上收集的其他数据来源以获得更多见解。

  • 从各种运输方式中获取产品的运输日志,并使用蒙特卡罗模拟进行优化,然后将报告发送回使用您的运输运送货物的组织和人员。

协调提取、转换、加载 (ETL) 任务:

  • 使用 Amazon Glue 进行一系列数据准备步骤,将销售机会记录与营销指标数据集相结合,并生成可在整个组织中使用的商业智能报告。

  • 创建、启动和终止用于大数据处理的 Amazon EMR 集群。

批处理和高性能计算 (HPC) 工作负载:

  • 构建基因组二级分析管道,将原始的全基因组序列处理成变异调用。将原始文件与参考序列对齐,并使用动态并行调用指定染色体列表上的变异。

  • 通过使用不同的电气和化合物模拟各种布局,提高下一代移动设备或其他电子产品的生产效率。通过各种模拟对工作负载进行大批量处理,以便获得最佳设计。