Slurm prolog 和 epilog - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Slurm prologepilog

从 Amazon ParallelCluster 版本 3.6.0 开始,使用 Amazon ParallelCluster 部署的 Slurm 配置包括 PrologEpilog 配置参数:

# PROLOG AND EPILOG Prolog=/opt/slurm/etc/scripts/prolog.d/* Epilog=/opt/slurm/etc/scripts/epilog.d/* SchedulerParameters=nohold_on_prolog_fail BatchStartTimeout=180

有关更多信息,请参阅 Slurm 文档中的 Prolog 和 Epilog 指南

Amazon ParallelCluster 包括以下 prolog 和 epilog 脚本:

  • 90_plcuster_health_check_manager(位于 Prolog 文件夹)

  • 90_pcluster_noop(位于 Epilog 文件夹)

注意

PrologEpilog 文件夹都必须至少包含一个文件。

您可以将自定义 prologepilog 脚本添加到相应的 PrologEpilog 文件夹中,从而使用自己的自定义脚本。

警告

Slurm 按字母倒序运行这些文件夹中的每个脚本。

prologepilog 脚本的运行持续时间会影响运行作业所需的时间。当运行的 prolog 脚本数量较多或运行时间较长时,请更新 BatchStartTimeout 配置设置。默认值为 3 分钟。

如果您要使用自定义 prologepilog 脚本,请将这些脚本放置在相应的 PrologEpilog 文件夹中。我们建议您保留在每个自定义脚本之前运行的 90_plcuster_health_check_manager 脚本。有关更多信息,请参阅 Slurm 配置自定义