在 Amazon EKS 上运行实时在线推理工作负载 - Amazon EKS
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

帮助改进此页面

要帮助改进本用户指南,请选择位于每个页面右侧窗格中的在 GitHub 上编辑此页面链接。

在 Amazon EKS 上运行实时在线推理工作负载

本节旨在帮助您在 Amazon Elastic Kubernetes Service(EKS)上部署和运行实时在线推理工作负载。您将找到有关构建优化的集群(含有 GPU 加速节点)、集成 Amazon 服务(用于存储和自动扩展)、部署示例模型进行验证,以及关键架构注意事项(例如解耦 CPU 和 GPU 任务、选择适当的 AMI 和实例类型,以及确保推理端点的低延迟暴露)的指导。