启动带 Amazon Neuron 的 DLAMI 实例
最新的 DLAMI 已可与 Amazon Inferentia 结合使用,并且附带了 Amazon Neuron API 程序包。要启动 DLAMI 实例,请参阅启动和配置 DLAMI。准备好 DLAMI 后,按照此处的步骤操作,确保您的 Amazon Inferentia 芯片和 Amazon Neuron 资源处于活动状态。
验证您的实例
在使用您的实例之前,验证该实例是否已针对 Neuron 进行正确的设置和配置。
确定 Amazon Inferentia 设备
要确定实例上的 Inferentia 设备数量,请使用以下命令:
neuron-ls
如果您的实例已附加了 Inferentia 设备,则输出将如下所示:
+--------+--------+--------+-----------+--------------+ | NEURON | NEURON | NEURON | CONNECTED | PCI | | DEVICE | CORES | MEMORY | DEVICES | BDF | +--------+--------+--------+-----------+--------------+ | 0 | 4 | 8 GB | 1 | 0000:00:1c.0 | | 1 | 4 | 8 GB | 2, 0 | 0000:00:1d.0 | | 2 | 4 | 8 GB | 3, 1 | 0000:00:1e.0 | | 3 | 4 | 8 GB | 2 | 0000:00:1f.0 | +--------+--------+--------+-----------+--------------+
提供的输出取自 Inf1.6xlarge 实例,包括以下各列:
-
NEURON 设备:分配给 NeuronDevice 的逻辑 ID。在将多个运行时系统配置为使用不同 NeuronDevices 时,会使用此 ID。
-
NEURON 核心:NeuronDevice 中存在的 NeuronCore 数量。
-
NEURON 内存:NeuronDevice 中的 DRAM 内存量。
-
连接的设备:连接到 NeuronDevice 的其他 NeuronDevice。
-
PCI BDF:NeuronDevice 的 PCI 总线设备功能 (BDF) ID。
查看资源使用量
使用 neuron-top 命令查看有关 NeuronCore 和 vCPU 利用率、内存使用率、加载的模型以及 Neuron 应用程序的有用信息。启动不带参数的 neuron-top,将显示使用 NeuronCore 的所有机器学习应用程序的数据。
neuron-top
当应用程序使用四个 NeuronCore 时,输出应类似于以下图像:
有关用于监控和优化基于 Neuron 的推理应用程序的资源的更多信息,请参阅 Neuron 工具
使用 Neuron Monitor(Neuron 监视器)
Neuron Monitor 从系统上运行的 Neuron 运行时系统收集指标,并将收集的数据以 JSON 格式流式传输到 stdout。这些指标按指标组进行组织,您可以通过提供配置文件进行配置。有关 Neuron Monitor 的更多信息,请参阅 Neuron Monitor 用户指南
升级 Neuron 软件
有关如何在 DLAMI 中更新 Neuron SDK 软件的信息,请参阅 Amazon Neuron 设置指南