

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon EKS 编排的 SageMaker HyperPod 集群上运行作业
<a name="sagemaker-hyperpod-eks-run-jobs"></a>

以下主题提供了在使用 Amazon EKS 编排的预配置 SageMaker HyperPod 集群上访问计算节点和运行机器学习工作负载的过程和示例。根据您在集群上设置环境的方式，有多种方法可以在 HyperPod 集 HyperPod 群上运行 ML 工作负载。

**注意**  
通过 SageMaker HyperPod CLI 或 kubectl 运行作业时， HyperPod 可以跨命名空间（团队）跟踪计算利用率（GPU/CPU 小时数）。这些指标为使用情况报告提供支持，该报告可提供：  
已分配资源与已借入资源消耗情况可见性
用于审计的团队资源利用率（最长 180 天）
与任务治理策略保持一致的成本归属
要利用使用情况报告，您必须安装使用情况报告基础设施。我们强烈建议配置[任务治理](sagemaker-hyperpod-eks-operate-console-ui-governance.md)，以强制实施计算资源配额并启用精细成本归属。  
有关设置和生成使用情况报告的更多信息，请参阅[中的报告计算使用情况 HyperPod](https://docs.amazonaws.cn/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)。

**提示**  
要获得有关如何设置和使用由 Amazon EKS 编排的 SageMaker HyperPod 集群的实践经验和指导，我们建议您参加此次研讨会 Amazon EKS Su [ppor](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e) t。 SageMaker HyperPod

数据科学家用户可以使用 EKS 集群集作为集群的协调器来训练基础模型。 SageMaker HyperPod 科学家们利用 [SageMaker HyperPod CLI](https://github.com/aws/sagemaker-hyperpod-cli) 和原生`kubectl`命令来查找可用 SageMaker HyperPod 集群、提交训练作业 (Pod) 并管理其工作负载。 SageMaker HyperPod CLI 支持使用训练作业架构文件提交作业，并提供任务列表、描述、取消和执行的功能。科学家可以根据由管理的计算配额使用 [Kubeflow 训练运算符](https://www.kubeflow.org/docs/components/training/overview/) HyperPod，并由 [SageMaker AI 管理 MLflow来管理](https://docs.amazonaws.cn/sagemaker/latest/dg/mlflow.html) ML 实验和训练运行。

**Topics**
+ [安装 SageMaker HyperPod CLI](sagemaker-hyperpod-eks-run-jobs-access-nodes.md)
+ [SageMaker HyperPod CLI 命令](sagemaker-hyperpod-eks-hyperpod-cli-reference.md)
+ [使用 SageMaker HyperPod CLI 运行作业](sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.md)
+ [使用 `kubectl` 运行作业](sagemaker-hyperpod-eks-run-jobs-kubectl.md)