帮助改进此页面
要帮助改进本用户指南,请选择位于每个页面右侧窗格中的在 GitHub 上编辑此页面链接。
在 Amazon EKS 上运行实时在线推理工作负载
本节旨在帮助您在 Amazon Elastic Kubernetes Service(EKS)上部署和运行实时在线推理工作负载。您将找到有关构建优化的集群(含有 GPU 加速节点)、集成 Amazon 服务(用于存储和自动扩展)、部署示例模型进行验证,以及关键架构注意事项(例如解耦 CPU 和 GPU 任务、选择适当的 AMI 和实例类型,以及确保推理端点的低延迟暴露)的指导。