在 Amazon EC2 资源上创建多节点并行作业定义 - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon EC2 资源上创建多节点并行作业定义

要创建单节点作业定义,请参阅创建单节点作业定义

在 Amazon Elastic Compute Cloud 资源上创建多节点并行作业定义:
  1. 打开 Amazon Batch 控制台,地址:https://console.aws.amazon.com/batch/

  2. 从导航栏中,选择要使用的 Amazon Web Services 区域。

  3. 在导航窗格中,选择作业定义

  4. 选择 Create(创建)。

  5. 对于编排类型,选择 Amazon Elastic Compute Cloud (Amazon EC2)

  6. 对于启用多节点并行,请打开多节点并行。

  7. 对于名称,为您的作业定义输入唯一名称。名称可以长达 128 个字符,并且可以包含大小写字母、数字、连字符 (-) 和下划线 (_)。

  8. (可选)对于 执行超时,指定您希望作业尝试运行的最大秒数。如果某次尝试超过了超时时间,该尝试将停止,状态将转为 FAILED。有关更多信息,请参阅作业超时

  9. (可选)开启计划优先级。输入介于 0 到 100 之间的计划优先级值。值越高,相较于较低值的优先级越高。

  10. (可选)对于作业尝试,请输入 Amazon Batch 尝试将作业移至 RUNNABLE 状态的次数。请输入 1 到 10 之间的数字。

  11. (可选)对于重试策略条件,选择退出时添加评估。至少输入一个参数值,然后选择一个操作。对于每组条件,必须将操作设置为重试退出。这些操作意味着以下几点:

    • 重试 – Amazon Batch 重试,直到达到您指定的作业尝试次数。

    • 退出 – Amazon Batch 停止重试作业。

    重要

    如果选择退出时添加评估,则必须至少配置一个参数并选择一个操作或选择退出时移除评估

  12. (可选)展开标签,然后选择添加标签以向资源添加标签。输入键和可选的值,然后选择添加标签。(可选)您也可开启传播标签,将标签从作业和作业定义传播到 Amazon ECS 任务。

  13. 选择下一页

  14. 对于 Number of nodes (节点数),输入要用于作业的节点的总数。

  15. 对于 Main node (主节点),输入要用于主节点的节点索引。默认主节点索引为 0

  16. 对于实例类型,选择实例类型。

    注意

    您选择的实例类型适用于所有节点。

  17. 对于参数,选择添加参数以添加参数替换占位符作为和可选对。

  18. 节点范围部分中:

    1. 选择添加节点范围。这将创建节点范围部分。

    2. 对于 Target nodes (目标节点),使用 range_start:range_end 表示法为节点组指定范围。

      对于您为作业指定的节点,您可以创建最多 5 个节点范围。节点范围使用节点的索引值,并且节点索引从 0 开始。确保最终节点组的范围结束索引值比您指定的节点数少一。例如,假设您指定了 10 个节点,并且想要使用单个节点组。然后,您的终止范围是 9。

    3. 对于映像,选择要用于您的作业的 Docker 映像。默认情况下,Docker Hub 注册表中的映像可用。您也可以使用 repository-url/image:tag 指定其他存储库。名称最多可以有 255 个字符。可以包含大小写字母、数字、连字符(-)、下划线(_)、冒号(:)、正斜杠(/)和数字符号(#)。此参数可映射到 Docker Remote API创建容器部分中的 Imagedocker runIMAGE 参数。

      注意

      Docker 映像架构必须与为它们安排的计算资源的处理器架构相匹配。例如,基于 Arm 的 Docker 映像只能在基于 Arm 的计算资源上运行。

      • Amazon ECR 公有存储库中的映像使用完整的registry/repository[:tag]registry/repository[@digest]命名惯例(例如,public.ecr.aws/registry_alias/my-web-app:latest)。

      • Amazon ECR 存储库中的映像使用完整的registry/repository[:tag]命名惯例。例如 aws_account_id.dkr.ecr.region.amazonaws.com/my-web-app:latest

      • Docker Hub 上的官方存储库中的映像使用一个名称(例如,ubuntumongo)。

      • Docker Hub 上其他存储库中的映像通过组织名称(例如,amazon/amazon-ecs-agent)进行限定。

      • 其他在线存储库中的映像由域名 (例如,quay.io/assemblyline/ubuntu) 进行进一步限定。

    4. 对于命令语法,请选择 BashJSON

    5. 对于 Command,指定要传递到容器的命令。对于简单的命令,您可以在 Space delimited 选项卡上输入命令,就像在命令提示符中键入命令一样。然后,验证 JSON 结果是否正确。JSON 结果将传递给 Docker daemon。对于较复杂的命令 (例如,带有特殊字符),您可以切换到 JSON 选项卡,然后在该选项卡中输入等效字符串数组。

      此参数映射到 Docker Remote API 创建容器部分中的 Cmd,以及 docker runCOMMAND 参数。有关 Docker CMD 参数的更多信息,请参阅 https://docs.docker.com/engine/reference/builder/#cmd

      注意

      您可以在命令中使用参数替代默认值和占位符。有关更多信息,请参阅参数

    6. 对于 vCPUs,指定要为容器预留的 vCPU 数量。此参数将映射到 Docker Remote API创建容器部分中的 CpuShares 以及 docker run--cpu-shares 选项。每个 vCPU 相当于 1024 个 CPU 份额。您必须指定至少一个 vCPU。

    7. 对于 Memory,指定要提供给作业容器的内存硬限制 (以 MiB 为单位)。如果您的容器尝试使用超出此处指定的内存,该容器将被终止。此参数将映射到 Docker Remote API创建容器部分中的 Memory 以及 docker run--memory 选项。您必须为作业指定至少 4 MiB 内存。

      注意

      您可以尝试通过为作业提供尽可能多的用于特定实例类型的内存来最大程度地利用资源。有关更多信息,请参阅计算资源内存管理

    8. (可选)对于 GPU 数 ,指定您的作业将使用的 GPU 的数量。该作业将在固定有指定数量的 GPU 的容器上运行。

    9. (可选)对于任务角色,您可以指定一个 IAM 角色,该角色为任务中的容器提供使用 Amazon API 的权限。此功能使用 Amazon ECS IAM 角色来执行任务功能。有关更多信息(包括配置先决条件),请参阅 Amazon Elastic Container Service 开发人员指南中的任务中的 IAM 角色

      注意

      对于在 Fargate 资源上运行的作业,需要作业角色。

      注意

      此处仅显示具有 Amazon Elastic Container Service Task Role 信任关系的角色。有关为 Amazon Batch 作业创建 IAM 角色的更多信息,请参阅 Amazon Elastic Container Service 开发人员指南中的为任务创建 IAM 角色和策略

    10. (可选)对于执行角色,指定一个 IAM 角色,该角色授予 Amazon ECS 容器代理代表您进行 Amazon API 调用的权限。此功能使用 Amazon ECS IAM 角色来执行任务功能。有关更多信息,请参阅 Amazon Elastic Container Service 开发人员指南中的 Amazon ECS 任务执行 IAM 角色

  19. (可选)展开其他配置

    1. 对于环境变量,选择添加环境变量以名称-值对的形式添加环境变量。这些变量传递给容器。

    2. 对于任务角色配置,您可以指定一个 IAM 角色,该角色为任务中的容器提供使用 Amazon API 的权限。此功能使用 Amazon ECS IAM 角色来执行任务功能。有关更多信息(包括配置先决条件),请参阅 Amazon Elastic Container Service 开发人员指南中的任务中的 IAM 角色

      注意

      对于在 Fargate 资源上运行的作业,需要作业角色。

      注意

      此处仅显示具有 Amazon Elastic Container Service Task Role 信任关系的角色。有关为 Amazon Batch 作业创建 IAM 角色的更多信息,请参阅 Amazon Elastic Container Service 开发人员指南中的为任务创建 IAM 角色和策略

    3. 对于执行角色,指定一个 IAM 角色,该角色授予 Amazon ECS 容器代理代表您进行 Amazon API 调用的权限。此功能使用 Amazon ECS IAM 角色来执行任务功能。有关更多信息,请参阅 Amazon Elastic Container Service 开发人员指南中的 Amazon ECS 任务执行 IAM 角色

  20. 安全配置部分:

    1. (可选)要为您的作业容器授予对主机实例的提升权限(类似于 root 用户),请启用 特权。此参数将映射到 Docker Remote API创建容器部分中的 Privileged 以及 docker run--privileged 选项。

    2. (可选)对于用户名,输入要在容器内使用的用户名。此参数将映射到 Docker Remote API创建容器部分中的 User 以及 docker run--user 选项。

    3. (可选)对于密钥,选择添加密钥,将密钥添加为名称-值对。这些密钥暴露在容器中。有关更多信息,请参阅 的 Job 定义参数 ContainerProperties 中的 secretOptions

  21. Linux 配置部分中:

    1. 开启启用只读文件系统以移除对卷的写入权限。

    2. (可选)开启启用 init 进程以在容器内运行 init 进程。该进程转发信号和获得进程。

    3. 共享内存大小中,输入 /dev/shm 卷的大小(以 MiB 为单位)。

    4. 最大交换大小中,输入容器可使用的总交换内存量(以 MiB 为单位)。

    5. Swappiness 中输入一个介于 0 和 100 之间的值,以指示容器的 swappiness 行为。如果不指定值且启用了交换,则值默认值为 60。有关更多信息,请参阅 的 Job 定义参数 ContainerProperties 中的 swappiness

    6. (可选)对于设备,选择添加设备以添加设备:

      1. 对于容器路径,指定容器实例中的路径以公开映射到主机实例的设备。如果将其留空,则在容器中使用主机路径。

      2. 对于主机路径,指定主机实例中设备的路径。

      3. 对于权限,选择要应用于设备的一个或多个权限。可用权限包括读取写入MKNOD

  22. (可选)对于挂载点,请选择添加挂载点配置以添加数据卷的挂载点。您必须指定源卷和容器路径。这些挂载点会传递到容器实例上的 Docker 进程守护程序。您也可以选择将卷设为只读

  23. (可选)对于 Ulimits 配置,请选择添加 ulimit 为容器添加一个 ulimits 值。输入名称软限制硬限制值,然后选择添加 ulimit

  24. (可选)对于卷配置,请选择添加卷以创建要传递到容器的卷列表。输入卷的名称源路径,然后选择添加卷。您也可以选择开启启用 EFS

  25. (可选)对于 Tmpfs,请选择添加 tmpfs 以添加 tmpfs 挂载。

  26. (可选)在日志记录配置部分:

    1. 对于日志驱动程序,请选择要使用的日志驱动程序。有关可用日志驱动程序的更多信息,请参阅 的 Job 定义参数 ContainerProperties 中的 logDriver

      注意

      默认情况下,使用 awslogs 日志驱动程序。

    2. 选项中,选择添加选项以添加选项。输入名称-值对,然后选择添加选项

    3. 对于密钥,选择添加密钥。输入名称-值对,然后选择添加密钥以添加密钥。

      提示

      有关更多信息,请参阅 的 Job 定义参数 ContainerProperties 中的 secretOptions

  27. 选择下一页

  28. 对于作业定义查看,请查看配置步骤。如果需要进行更改,请选择 Edit(编辑)。完成后,选择 创建作业定义