本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon Data Pipeline自动执行重复出现的 Amazon EMR 集群
Amazon Data Pipeline 是一项自动执行数据的移动与转换的服务。您可以使用它安排将输入数据移入 Amazon S3 的时间,以及安排启动集群处理这些数据的时间。例如,在拥有 Web 服务器记录流量日志的情况下可以考虑此项服务。如果您想每周运行一个集群来分析流量数据,则可以使用 Amazon Data Pipeline 来安排这些集群。 Amazon Data Pipeline 是一种数据驱动型工作流,因此,一个任务(启动集群)可以依赖另一个任务(将输入数据移入 Amazon S3)。此外,它还拥有强健的重试功能。
有关的更多信息 Amazon Data Pipeline,请参阅《Amazon Data Pipeline 开发人员指南》,尤其是有关 Amazon EMR 的教程: