深度学习 AMI
开发人员指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

设置 Amazon ECS 以使用 AWS Deep Learning Containers

本部分介绍如何设置 Amazon ECS 以便使用 AWS Deep Learning Containers。从您的主机运行以下操作。

  1. 在包含您之前创建的密钥对和安全组的区域中创建 Amazon ECS 集群。

    aws ecs create-cluster --cluster-name ecs-ec2-training-inference --region us-east-1
  2. 在集群中启动一个或多个 Amazon EC2 实例。对于基于 GPU 的工作,请参阅在 Amazon ECS 上使用 GPU 来指导实例类型选择。选择了实例类型后,再选择适合您的使用案例的 ECS 优化的 AMI。对于基于 CPU 的工作,可以使用 Amazon Linux 或 Amazon Linux 2 ECS 优化的 AMI。对于基于 GPU 的工作,必须使用 ECS GPU 优化的 AMI 和 p2/p3 实例类型。可在此处找到 Amazon ECS-优化的 AMI 的 Amazon ECS-optimized AMI ID。在本示例中,我们将在 us-east-1 中启动一个具有基于 GPU 的 AMI 和 100 GB 磁盘大小的实例。

    1. 使用以下内容创建名为 my_script.txt 的文件。引用您在上一步中创建的同一集群名称。

      #!/bin/bash echo ECS_CLUSTER=ecs-ec2-training-inference >> /etc/ecs/ecs.config
    2. (可选)使用以下内容创建名为 my_mapping.txt 的文件,这将在创建实例后更改根卷的大小。

      [ { "DeviceName": "/dev/xvda", "Ebs": { "VolumeSize": 100 } } ]
    3. 使用Amazon ECS-optimized AMI 启动 Amazon EC2 实例并将其附加到集群。使用您的安全组 ID 和创建的密钥对名称并在以下命令中替换它们。要获取最新的 Amazon ECS-optimized AMI ID,请参阅 Amazon Elastic Container Service Developer Guide 中的 Amazon ECS 优化的 AMI

      aws ec2 run-instances --image-id ami-0dfdeb4b6d47a87a2 \ --count 1 \ --instance-type p2.8xlarge \ --key-name key-pair-1234 \ --security-group-ids sg-abcd1234 \ --iam-instance-profile Name="ecsInstanceRole" \ --user-data file://my_script.txt \ --block-device-mapping file://my_mapping.txt \ --region us-east-1

      在 Amazon EC2 控制台中,您可以根据响应中的 instance-id 验证此步骤是否成功。

现在,您有一个正在运行容器实例的 Amazon ECS 集群。使用以下步骤验证 Amazon EC2 实例已注册到集群。

验证 Amazon EC2 实例是否已注册到集群

  1. https://console.amazonaws.cn/ecs/ 上打开 Amazon ECS 控制台。

  2. 选择您将 Amazon EC2 实例注册到的集群。

  3. Cluster (集群) 页面上,选择 ECS Instances (ECS 实例)

  4. 验证对于在上一步骤中创建的 instance-idAgent Connected (代理已连接) 值是否为 True (真)。此外,记下控制台上显示的可用 CPU 和内存值,因为在随后的教程中会用到这些值。上述值可能需要几分钟才能显示在控制台中。