开始使用机器学习 - Amazon EKS
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

帮助改进此页面

要帮助改进本用户指南,请选择位于每个页面右侧窗格中的在 GitHub 上编辑此页面链接。

开始使用机器学习

要在 EKS 上部署机器学习,首先要从这些规范模式中进行选择,让 EKS 集群和机器学习软件和硬件快速准备就绪,以开始运行机器学习工作负载。这些模式大多基于 Terraform 蓝图,这些蓝图可通过 Amazon EKS 上的数据网站获得。在开始之前,需要注意以下几点:

  • 需要 GPU 或 Neuron 实例才能运行此类过程。当此类资源出现可用性不足时,可能会导致上述过程在创建集群或节点自动扩展期间失败。

  • Neuron SDK(基于 Tranium 和 Inferentia 的实例)不仅可以节省资金,而且比 NVIDIA GPU 更具可用性。因此,如果工作负载允许,建议将 Neutron 用于机器学习工作负载(请参阅 Welcome to Amazon Neuron)。

  • 此处的部分入门体验要求您通过个人的 Hugging Face 账户获取数据。

首先,请从以下模式中进行选择,这些模式旨在帮助您开始设置基础架构以运行机器学习工作负载:

继续在 EKS 上部署机器学习

除了从本页所述的蓝图中进行选择外,如果您愿意,还可以通过其他方式了解在 EKS 上部署机器学习的文档。例如,您可以:

要改进在 EKS 上部署机器学习的情况,请参阅以下内容:

  • 为机器学习做好准备 – 学习如何使用自定义 AMI 和 GPU 预留等功能为在 EKS 上部署机器学习做好准备。请参阅 准备机器学习集群