数据处理 - Amazon Step Functions
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据处理

随着数据量的增长,来自日益多样化的来源,组织发现他们需要快速行动来处理这些数据,以确保他们更快地做出明智的业务决策。要大规模处理数据,组织需要弹性地配置资源,以管理从移动设备、应用程序、卫星、营销和销售、运营数据存储、基础设施等接收的信息。

Step Functions 提供了成功管理数据处理工作流所需的可扩展性、可靠性和可用性。您可以使用 Step Functions 管理数百万个并发执行,因为它水平扩展并提供容错工作流程。使用步骤功能等并行执行更快地处理数据Parallel状态类型,或者使用它的动态并行Map状态类型。作为工作流程的一部分,您可以使用Map状态,如 Amazon S3 存储桶,迭代静态数据存储中的对象。Step Functions 还可以让你轻松重试失败的执行,或者选择一种特定的方法来处理错误,而无需管理复杂的流程。

根据您的数据处理需求,Step Functions 直接与其提供的其他数据处理服务集成Amazon例如Amazon Batch对于批量处理,Amazon EMR对于大数据处理,Amazon Glue为了准备数据,Athena用于数据分析,以及Amazon Lambda为了计算。

客户使用 Step Functions 完成的数据处理工作流类型的示例包括:

文件、视频和图像处理

  • 收集一系列视频文件,然后将其转换为非常适合在其上显示的设备的其他尺寸或分辨率,例如手机、笔记本电脑或电视机。

  • 拍摄用户上传的大量照片,然后将它们转换为缩略图或各种分辨率图像,然后可以在用户的网站上显示。

  • 获取半结构化数据(例如 CSV 文件),然后将其与非结构化数据(如发票)结合起来,以生成每月发送给业务利益相关者的业务报告。

  • 利用从卫星收集的地球观测数据,将其转换为彼此对齐的格式,然后添加在地球上收集的其他数据源以获得更多洞察。

  • 从各种运输模式中获取产品的运输日志,并使用 Monte Carlo Simulations 寻找优化,然后将报告发回给依赖你运送货物的组织和人员。

协调提取、转换和加载 (ETL) 作业:

  • 通过一系列数据准备步骤将销售机会记录与营销指标数据集结合起来Amazon Glue,并生成可在整个组织中使用的商业智能报告。

  • 创建、启动和终止 Amazon EMR 集群以进行大数据处理。

Batch 处理和高性能计算 (HPC) 工作负载:

  • 构建基因组学二级分析管道,将原始全基因组序列处理为变体调用。将原始文件与参考序列对齐,并使用动态并行度调用指定染色体列表上的变体。

  • 通过使用不同的电气和化学化合物模拟各种布局,从而提高生产下一个移动设备或其他电子产品的效率。通过各种模拟对您的工作负载进行大批处理,以获得最佳设计。