Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

控制集群终止

使用 Amazon EMR 创建集群时,您可以选择创建在步骤完成后自动终止的暂时性集群,也可以创建长时间运行的集群,此类集群会在您有意终止前继续运行。集群终止后,该集群中的所有 Amazon EC2 实例都会终止,并且实例存储和 EBS 卷中的数据将不再可用,且无法恢复。如果要制定一个策略以通过向 Amazon S3 写入数据并平衡成本来管理和保留数据,那么了解和管理集群终止就至关重要。有关如何手动终止集群的信息,请参阅终止集群

如果使用自动终止,集群就会启动和运行您指定的所有引导操作,然后执行通常用于输入数据的步骤,处理数据,并生成和保存输出数据。完成这些步骤后,Amazon EMR 会自动终止集群 Amazon EC2 实例。对于定期执行处理任务(例如日常数据处理运行)的集群来说,这是非常有效的模型。自动终止集群将有助于确保您只需按处理数据所需的时间付费。有关步骤的更多信息,请参阅 使用 CLI 和控制台执行步骤

对于长时间运行的集群,集群启动的方式相同。您可以像自动终止的集群那样指定步骤,但集群在步骤完成后会继续运行并产生相关费用。当您需要以交互方式或自动查询数据,或与集群上托管的大数据应用程序持续交互时,此模型非常有效。如果您定期处理大型数据集或需要频繁处理,以致于每次都无法有效启动新集群和加载数据,那么此模型也同样有效。您可以在长时间运行的集群上启用终止保护,有助于防止意外关闭。您还可以利用自动扩展和实例队列等功能,动态调整集群大小以根据工作负载需求平衡性能和成本。有关更多信息,请参阅 扩展集群资源配置实例队列

本节将介绍终止保护和自动终止的工作原理,以及它们如何互相交互,如何与其他 Amazon EMR 功能及其他数据处理流程交互。