使用 Habana Deep Learning (DL1) 工作负载 - Amazon EKS
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

帮助改进此页面

想为本用户指南做出贡献? 滚动到页面底部,然后选择在 GitHub 上编辑此页面。您的贡献有助于我们的用户指南为每个人提供更充分的参考。

使用 Habana Deep Learning (DL1) 工作负载

Amazon EKS 中的自定义 Amazon Linux 2(AL2)AMI 可以通过额外的配置和 Kubernetes 附加组件大规模支持深度学习工作负载。本文档介绍了为本地设置或作为较大云配置中的基准设置通用 Kubernetes 解决方案所需的组件。要支持此函数,您必须在自定义环境中执行以下步骤:

  • SynapaseAI® Software 驱动程序加载到系统中 – 这些驱动程序包含在 Github 上可用的 AMI 中。

  • Habana 设备插件 – 一个 DaemonSet,允许您在 Kubernetes 集群中自动启用 Habana 设备注册并跟踪设备运行状况。

  • Helm 3.x

  • 用于安装 MPI Operator 的 Helm Chart

  • MPI Operator

  1. 从 AL2、Ubuntu 18 或 Ubuntu 20 创建并启动基本 AMI。

  2. 按照这些说明以为 DL1 设置环境。