机器学习推理问题排查 - AWS IoT Greengrass
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

机器学习推理问题排查

使用此部分中的故障排除信息和解决方案来帮助解决机器学习组件的问题。对于公共机器学习推理组件,您可以在以下组件日志中看到错误消息:

  • /greengrass/v2/logs/aws.greengrass.DLRImageClassification.log

  • /greengrass/v2/logs/aws.greengrass.DLRObjectDetection.log

如果组件安装正确,则组件日志包含它用于推理的库的位置。

无法提取库

当安装程序脚本在 Raspberry Pi 设备上的部署期间无法下载所需库时,会发生以下错误。

Err:2 http://raspbian.raspberrypi.org/raspbian buster/main armhf python3.7-dev armhf 3.7.3-2+deb10u1 404 Not Found [IP: 93.93.128.193 80] E: Failed to fetch http://raspbian.raspberrypi.org/raspbian/pool/main/p/python3.7/libpython3.7-dev_3.7.3-2+deb10u1_armhf.deb 404 Not Found [IP: 93.93.128.193 80]

再次运行sudo apt-get update并部署您的组件。

无法打开共享对象文件

当安装程序脚本在 Raspberry Pi 设备上的部署opencv-python期间无法为 下载所需的依赖项时,您可能会看到类似于以下内容的错误。

ImportError: libopenjp2.so.7: cannot open shared object file: No such file or directory

运行以下命令以手动安装 的依赖项opencv-python

sudo apt-get install libopenjp2-7 libilmbase23 libopenexr-dev libavcodec-dev libavformat-dev libswscale-dev libv4l-dev libgtk-3-0

未找到库

以下错误指示 DLR 安装程序组件无法正确设置虚拟环境:

  • *${*ml_root_path*}*/greengrass_ml_dlr_conda/bin/conda: No such file or directory (在 x86_64 设备上)

  • *${*ml_root_path*}*/greengrass_ml_dlr_venv/bin/activate: No such file or directory (在 Raspberry Pi 设备上)

  • cv2 not found

  • dlr not found

  • numpy not found

检查日志以确保正确安装了所有依赖项。有关安装程序脚本安装的库的更多信息,请参阅DLR 安装程序

内存错误

当设备没有足够的内存并且组件进程中断时,通常会发生以下错误。

  • stderr. Killed.

  • exitCode=137

我们建议至少使用 500 MB 的内存来部署公共机器学习推理组件。

磁盘空间错误

当设备没有足够的存储空间时,通常会发生no space left on device此错误。检查设备上可用的磁盘空间,并确保有足够的空间,然后重新部署组件。我们建议至少使用 500 MB 的可用磁盘空间来部署公共机器学习推理组件。

超时错误

公共机器学习组件下载大于 200 MB 的大型机器学习模型文件。如果下载在部署期间超时,请检查 Internet 连接速度并重试部署。