Amazon ParallelCluster 使用的 Amazon 服务 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon ParallelCluster 使用的 Amazon 服务

Amazon ParallelCluster 使用以下 Amazon Web Services (Amazon) 服务。

Amazon Auto Scaling

注意

本节仅适用于 2.11.4 及以下的 Amazon ParallelCluster 版本。从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 Amazon Auto Scaling。

Amazon Auto Scaling 是一种用于监控您的应用程序并根据您的特定和不断变化的服务要求自动调整容量的服务。此服务将您的 ComputeFleet 实例作为自动扩缩组进行管理。该组可以由不断变化的工作负载弹性驱动,也可以由初始实例配置静态固定。

Amazon Auto Scaling 适用于 ComputeFleet 实例,但不适用于 Amazon Batch 集群。

有关 Amazon Auto Scaling 的更多信息,请参阅 https://aws.amazon.com/autoscaling/https://docs.aws.amazon.com/autoscaling/

Amazon Batch

Amazon Batch 是一项 Amazon 托管的作业调度器服务。它可在 Amazon Batch 集群中动态预置最佳数量和类型的计算资源(例如 CPU 或内存优化型实例)。这些资源是根据批处理作业的特定要求(包括卷要求)预置的。有了 Amazon Batch,无需安装和管理批量计算软件或服务器集群即可高效地运行作业。

Amazon Batch 仅适用于 Amazon Batch 集群。

有关 Amazon Batch 的更多信息,请参阅 https://aws.amazon.com/batch/https://docs.aws.amazon.com/batch/

Amazon CloudFormation

Amazon CloudFormation 是一项基础设施即代码服务,它为云环境中的 Amazon 和第三方应用程序资源的建模和预置提供了一种通用语言。它是 Amazon ParallelCluster 使用的主服务。Amazon ParallelCluster 中的每个集群都表示为一个堆栈,每个集群所需的所有资源都在 Amazon ParallelCluster Amazon CloudFormation 模板中定义。在大多数情况下,Amazon ParallelCluster CLI 命令直接对应 Amazon CloudFormation 堆栈命令,例如创建、更新和删除命令。集群中启动的实例对启动该集群的 Amazon Web Services 区域 中的 Amazon CloudFormation 端点进行 HTTPS 调用。

有关 Amazon CloudFormation 的更多信息,请参阅 https://aws.amazon.com/cloudformation/https://docs.aws.amazon.com/cloudformation/

Amazon CloudWatch

Amazon CloudWatch (CloudWatch) 是一项监控和可观测性服务,为您提供数据和可操作的见解。这些见解可用于监控您的应用程序、响应性能变化和服务异常以及优化资源利用率。在 Amazon ParallelCluster 中,CloudWatch 用于控制面板,用来监控和记录 Docker 映像构建步骤和 Amazon Batch 作业的输出。

在 Amazon ParallelCluster 版本 2.10.0 之前,CloudWatch 仅适用于 Amazon Batch 集群。

有关 CloudWatch 的更多信息,请参阅 https://aws.amazon.com/cloudwatch/https://docs.aws.amazon.com/cloudwatch/

Amazon CloudWatch Logs

Amazon CloudWatch Logs (CloudWatch Logs) 是 Amazon CloudWatch 的核心功能之一。您可以使用它来监控、存储、查看和搜索 Amazon ParallelCluster 中使用的众多组件的日志文件。

在 Amazon ParallelCluster 版本 2.6.0 之前,CloudWatch Logs 仅适用于 Amazon Batch 集群。

有关更多信息,请参阅与 Amazon CloudWatch 日志集成

Amazon CodeBuild

Amazon CodeBuild (CodeBuild) 是一项 Amazon 托管的连续集成服务,可编译源代码、运行测试以及生成可供部署的软件包。在 Amazon ParallelCluster 中,CodeBuild 用于在创建集群时自动以透明形式构建 Docker 映像。

CodeBuild 仅适用于 Amazon Batch 集群。

有关 CodeBuild 的更多信息,请参阅 https://aws.amazon.com/codebuild/https://docs.aws.amazon.com/codebuild/

Amazon DynamoDB

Amazon DynamoDB (DynamoDB) 是一项快速灵活的 NoSQL 数据库服务。它用于存储集群的最小状态信息。头节点跟踪 DynamoDB 表中的预置实例。

DynamoDB 不适用于 Amazon Batch 集群。

有关 DynamoDB 的更多信息,请参阅 https://aws.amazon.com/dynamodb/https://docs.aws.amazon.com/dynamodb/

Amazon Elastic Block Store

Amazon Elastic Block Store (Amazon EBS) 是一项高性能块存储服务,可为共享卷提供永久性存储。所有 Amazon EBS 设置都可以通过配置进行传递。Amazon EBS 卷可以初始化为空,也可以从现有的 Amazon EBS 快照进行初始化。

有关 Amazon EBS 的更多信息,请参阅 https://aws.amazon.com/ebs/https://docs.aws.amazon.com/ebs/

Amazon Elastic Compute Cloud

Amazon Elastic Compute Cloud (Amazon EC2) 为 Amazon ParallelCluster 提供计算容量。头节点和计算节点是 Amazon EC2 实例。可以选择支持 HVM 的任何实例类型。头节点和计算节点可以是不同的实例类型。此外,如果使用多个队列,则部分或全部计算节点也可以作为竞价型实例启动。在实例上找到的实例存储卷作为条带化 LVM 卷挂载。

有关 Amazon EC2 的更多信息,请参阅 https://aws.amazon.com/ec2/https://docs.aws.amazon.com/ec2/

Amazon Elastic Container Registry

Amazon Elastic Container Registry(Amazon ECR)是一个完全托管式 Docker 容器注册表,可让开发人员轻松地存储、管理和部署 Docker 容器映像。在 Amazon ParallelCluster 中,Amazon ECR 用于存储创建集群时生成的 Docker 映像。随后,Amazon Batch 使用 Docker 映像为提交的作业运行容器。

Amazon ECR 仅适用于 Amazon Batch 集群。

有关更多信息,请参阅 https://aws.amazon.com/ecr/https://docs.aws.amazon.com/ecr/

Amazon EFS

Amazon Elastic File System (Amazon EFS) 提供了一种简单、可扩展并且完全托管的弹性 NFS 文件系统,可用于 Amazon Web Services 云 服务和本地资源。当指定了 efs_settings 设置并引用 [efs] 部分时,将会使用 Amazon EFS。Amazon ParallelCluster 版本 2.1.0 中添加了对 Amazon EFS 的支持。

有关 Amazon EFS 的更多信息,请参阅 https://aws.amazon.com/efs/https://docs.aws.amazon.com/efs/

适用于 Lustre 的 Amazon FSx

适用于 Lustre 的 FSx 提供了一个使用开源 Lustre 文件系统的高性能文件系统。当指定了 fsx_settings 设置并引用 [fsx] 部分时,将会使用适用于 Lustre 的 FSx。Amazon ParallelCluster 版本 2.2.1 中添加了对适用于 Lustre 的 FSx 的支持。

有关适用于 Lustre 的 FSx 的更多信息,请参阅 https://aws.amazon.com/fsx/lustre/https://docs.aws.amazon.com/fsx/

Amazon Identity and Access Management

Amazon Identity and Access Management (IAM) 用在 Amazon ParallelCluster 中,旨在为特定于每个单独集群的实例提供 Amazon EC2 的最低权限 IAM 角色。将仅向 Amazon ParallelCluster 实例授予对部署和管理集群所需的特定 API 调用的访问权限。

借助 Amazon Batch 集群,还可为创建集群时 Docker 映像构建过程涉及的组件创建 IAM 角色。这些组件包括允许在 Amazon ECR 存储库中添加和删除 Docker 映像的 Lambda 函数。它们还包括允许删除为集群和 CodeBuild 项目创建的 Amazon S3 存储桶的函数。还为 Amazon Batch 资源、实例和作业提供了角色。

有关 IAM 的更多信息,请参阅 https://aws.amazon.com/iam/https://docs.aws.amazon.com/iam/

Amazon Lambda

Amazon Lambda (Lambda) 运行的函数协调 Docker 映像创建。Lambda 还管理自定义集群资源的清理,如 Amazon ECR 存储库中和 Amazon S3 上存储的 Docker 映像。

有关 Lambda 的更多信息,请参阅 https://aws.amazon.com/lambda/https://docs.aws.amazon.com/lambda/

NICE DCV

NICE DCV 是一种高性能远程显示协议,它是一种可在不同网络条件下向任何设备提供远程桌面和应用程序流的安全方式。当指定了 dcv_settings 设置并引用 [dcv] 部分时,将会使用 NICE DCV。Amazon ParallelCluster 版本 2.5.0 中添加了对 NICE DCV 的支持。

有关 NICE DCV 的更多信息,请参阅 https://aws.amazon.com/hpc/dcv/https://docs.aws.amazon.com/dcv/

Amazon Route 53

Amazon Route 53 (Route 53) 用于使用每个计算节点的主机名和完全限定域名创建托管区。

有关 Route 53 的更多信息,请参阅 https://aws.amazon.com/route53/https://docs.aws.amazon.com/route53/

Amazon Simple Notification Service

注意

本节仅适用于 2.11.4 及以下的 Amazon ParallelCluster 版本。从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 Amazon Simple Notification Service。

Amazon Simple Notification Service (Amazon SNS) 接收来自自动扩缩的通知。这些事件称为生命周期事件,它们是当实例在自动扩缩组中启动或终止时生成的。在 Amazon ParallelCluster 中,自动扩缩组的 Amazon SNS 主题被订阅到 Amazon SQS 队列。

Amazon SNS 不适用于 Amazon Batch 集群。

有关 Amazon SNS 的更多信息,请参阅 https://aws.amazon.com/sns/https://docs.aws.amazon.com/sns/

Amazon Simple Queue Service

注意

本节仅适用于 2.11.4 及以下的 Amazon ParallelCluster 版本。从版本 2.11.5 开始,Amazon ParallelCluster 不支持使用 Amazon Simple Queue Service。

Amazon Simple Queue Service (Amazon SQS) 保存从自动扩缩发送的通知、通过 Amazon SNS 发送的通知以及从计算节点发送的通知。Amazon SQS 可将通知发送与通知接收解耦。这使头节点能够通过轮询过程处理通知。在此过程中,头节点将运行 Amazon SQSWatcher 并轮询队列。自动扩缩和计算节点向该队列发布消息。

Amazon SQS 不适用于 Amazon Batch 集群。

有关 Amazon SQS 的更多信息,请参阅 https://aws.amazon.com/sqs/https://docs.aws.amazon.com/sqs/

Amazon Simple Storage Service

Amazon Simple Storage Service (Amazon S3) 用于存储每个 Amazon Web Services 区域中的 Amazon ParallelCluster 模板。Amazon ParallelCluster 可以配置为允许 CLI/SDK 工具使用 Amazon S3。

当您使用 Amazon Batch 集群时,将使用您账户中的 Amazon S3 存储桶来存储相关数据。例如,该存储桶会存储根据提交的作业创建 Docker 映像和脚本时创建的构件。

有关更多信息,请参阅 https://aws.amazon.com/s3/https://docs.aws.amazon.com/s3/

Amazon VPC

Amazon VPC 定义集群中节点使用的网络。集群的 VPC 设置在 [vpc] 部分中定义。

有关 Amazon VPC 的更多信息,请参阅 https://aws.amazon.com/vpc/https://docs.aws.amazon.com/vpc/