

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为由 Amazon EKS 编排的 SageMaker HyperPod 集群配置存储
<a name="sagemaker-hyperpod-eks-setup-storage"></a>

集群管理员需要为数据科学家用户配置存储，以便在 SageMaker HyperPod 集群训练期间管理输入和输出数据以及存储检查点。

**处理大型数据集（输入/输出数据）**
+ **数据访问和管理**：数据科学家经常需要使用大型数据集来训练机器学习模型。在作业提交中指定存储参数可让他们定义这些数据集的位置（如 Amazon S3 存储桶、Kubernetes 中的持久卷）以及在作业执行期间如何访问这些数据集。
+ **性能优化**：访问输入数据的效率会极大地影响训练作业的性能。通过优化存储参数，数据科学家可以确保高效读取和写入数据，从而减少 I/O 瓶颈。

**存储检查点**。
+ **训练中的检查点**：在长时间的训练作业中，通常的做法是保存检查点--模型的中间状态。这样，数据科学家就可以在出现故障时从某个特定点恢复训练，而不是从头开始。
+ **数据恢复和实验**：通过指定检查点的存储位置，数据科学家可以确保这些检查点被安全地存储，并可能存储在提供冗余和高可用性的分布式存储系统中。这对于从中断中恢复过来以及尝试不同的训练策略至关重要。

**提示**  
有关如何为使用 Amazon EKS 编排的 SageMaker HyperPod集群设置存储的实践经验和指导，请参阅 Amazon EKS Su [pp](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e) ort 研讨会中的以下章节。 SageMaker HyperPod   
[在 Lustre 上设置 FSx Amazon SageMaker HyperPod](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/01-cluster/06-fsx-for-lustre)
使用适用于亚马逊 S3 [的 Mountpoint 为亚马逊 S3 设置](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/01-cluster/09-s3-mountpoint)[挂载](https://docs.amazonaws.cn/AmazonS3/latest/userguide/mountpoint.html)点