什么是 Amazon Batch? - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Batch?

Amazon Batch借助 ,您可以在 上运行批处理计算工作负载。Amazon Web Services 云批量计算是开发人员、科学家和工程师用来访问大量计算资源的常见方法。Amazon Batch 将会消除配置和管理所需基础设施的千篇一律的繁重工作,与传统批量计算软件相似。此服务可以有效地预配置资源以响应提交的作业,以便消除容量限制、降低计算成本和快速交付结果。

作为一项完全托管服务,Amazon Batch 有助于您运行任意规模的批量计算工作负载。Amazon Batch 将根据工作负载的数量和规模自动预置计算资源并优化工作负载分配。有了 Amazon Batch 之后,不再需要安装或管理批量计算软件,从而使您可以将时间放在分析结果和解决问题上。

显示工作负载、编排和容量的 Amazon Batch 层级

Amazon Batch 在 Amazon 托管式容器编排服务、Amazon ECS 和 Amazon EKS 的基础上提供了大规模运行计算密集型工作负载所需的所有必要功能。Amazon Batch 能够扩展 Amazon EC2 实例和 Fargate 资源上的计算容量。

Amazon Batch 为批处理工作负载提供了完全托管式的服务,此外还提供了多项操作功能来优化这些类型的工作负载,以满足吞吐量、速度、资源效率和成本的需要。

Amazon Batch 还支持 SageMaker 训练作业排队功能,让数据科学家和机器学习工程师可以将具有优先级的训练作业提交到可配置的队列。此功能可确保机器学习工作负载在资源可用后立即自动运行,无需手动协调,同时还提高了资源利用率。

对于机器学习工作负载,Amazon Batch 提供了适用于 SageMaker 训练作业的排队功能。您可以为队列配置特定的策略,来优化机器学习训练工作负载的成本、性能和资源分配。

工作流程图显示管理员负责设置角色,数据科学家负责创建服务环境和作业队列、提交 SageMaker 训练作业并在 Amazon Batch 队列和 SageMaker AI 执行中监控作业

这实现了管理员负责设置基础设施和权限,而数据科学家专注于提交和监控其机器学习训练工作负载的责任共担模式。作业会根据配置的优先级和资源可用性自动排队和执行。

您是 Amazon Batch 新用户吗?

如果您是首次接触 Amazon Batch 的用户,我们建议您先阅读以下部分:

Amazon Batch 是一项完全托管式的批处理计算服务,可跨 Amazon 计算服务(例如 Amazon ECS、Amazon EKS、Amazon Fargate 以及竞价型或按需型实例)计划、调度和运行容器化批处理 ML、模拟和分析工作负载。有关各项托管式计算服务的更多信息,请参阅:

访问 Amazon Batch

您可以通过以下方式访问 Amazon Batch:

Amazon Batch 管理控制台

用于创建和管理资源的 Web 界面。

Amazon Command Line Interface

通过命令行 Shell 中的命令与 Amazon Web Services 服务进行交互。Amazon Command Line Interface 在 Windows、macOS 和 Linux 上受支持。有关 Amazon CLI 的更多信息,请参阅 Amazon Command Line Interface 用户指南。您可以在《Amazon CLI Command Reference》https://docs.amazonaws.cn/cli/latest/reference/中查看 Amazon Batch命令。

Amazon SDK

如果您倾向于使用语言特定的 API 而非通过 HTTP 或 HTTPS 提交请求来构建应用程序,则可以使用 Amazon 提供的库、示例代码、教程和其他资源。这些库提供了若干可自动执行任务的基本功能,例如以加密方式对请求进行签名、重试请求以及处理错误响应等。这些功能有助您更高效地入门。有关更多信息,请参阅用于在 Amazon 上进行构建的工具