数据处理 - Amazon Step Functions
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据处理

随着数据量的增长,来自日益多样化的来源,企业发现他们需要快速处理这些数据,以确保他们做出更快、更明智的业务决策。要大规模处理数据,组织需要灵活地配置资源,以管理从移动设备、应用程序、卫星、营销和销售、运营数据存储、基础设施等获得的信息。

Step Functions 提供成功管理数据处理工作流所需的可扩展性、可靠性和可用性。您可以使用 Step Functions 管理数百万并发执行,因为它可以水平扩展并提供容错工作流。使用并行执行(如步骤函数)更快地处理数据Parallel状态类型,或动态并行机制使用其Map状态类型。作为工作流的一部分,您可以使用Map状态以遍历静态数据存储中的对象,例如 Amazon S3 存储桶。Step Functions 还允许您轻松重试失败的执行,或选择特定的方法来处理错误,而无需管理复杂的进程。

根据您的数据处理需求,Step Functions 可直接与Amazon例如Amazon Batch用于成批处理,Amazon EMR用于大数据处理,Amazon Glue用于数据准备,Athena用于数据分析,Amazon Lambda用于计算。

客户使用 Step Functions 完成的数据处理工作流类型示例包括:

文件、视频和图像处理

  • 拍摄一组视频文件,并将其转换为其他大小或分辨率,这些大小或分辨率非常适合将要显示的设备,例如移动电话、笔记本电脑或电视机。

  • 拍摄大量由用户上传的照片,并将其转换为缩略图或各种分辨率图像,然后可以在用户的网站上显示。

  • 获取半结构化数据(如 CSV 文件),并将其与非结构化数据(如发票)合并,以生成每月发送给业务利益相关方的业务报告。

  • 将从卫星收集的地球观测数据转换为彼此对齐的格式,然后添加在地球上收集的其他数据源,以获得更多见解。

  • 从各种运输模式中获取产品的运输日志,并使用蒙特卡洛模拟寻找优化,然后将报告发送回依靠您运输货物的组织和人员。

协调提取、转换和加载 (ETL) 作业:

  • 通过一系列数据准备步骤,将销售机会记录与营销指标数据集合在一起,使用Amazon Glue,并生成可在整个组织中使用的业务智能报告。

  • 创建、启动和终止用于大数据处理的 Amazon EMR 集群。

Batch 和高性能计算 (HPC) 工作负载:

  • 构建基因组二级分析管道,将原始整个基因组序列处理为变体调用。将原始文件与参考序列对齐,并使用动态并行机制调用指定染色体列表上的变体。

  • 通过使用不同的电气和化学化合物模拟各种布局,提高下一个移动设备或其他电子设备的生产效率。通过各种模拟对工作负载进行大批处理,以获得最佳设计。