注意事项 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

注意事项

通过自定义 Docker 镜像,您可精细地选择精确的任务运行时间。使用此功能时,请务必遵循以下最佳实践:

  • 安全性是 Amazon 和您的共同责任。您负责添加到镜像中的二进制文件的安全修补。按照安全最佳实践中的说明操作,特别是获取自定义镜像的最新安全更新采用最低特权原则

  • 从 Amazon EMR 发行版 6.3.0 开始,您可以使用镜像标签和 :latest 来自动获取每个内部版本中的最新基础镜像。如果您使用的是较早的 Amazon EMR 版本,请确保使用最新的基础镜像标签。例如:emr-6.2.0-20210129

  • 当您自定义基础镜像时,请务必将 Docker 用户更改为 hadoop:hadoop,以确保不使用根用户运行任务。

  • Amazon EMR on EKS 会在运行时将文件挂载到镜像的配置之上,例如 spark-defaults.conf。要覆盖这些配置文件,我们建议您在提交任务期间使用 applicationOverrides 参数,而不是仅直接在自定义镜像中修改文件。

  • Amazon EMR on EKS 会在运行时挂载某些文件夹。任何对这些文件夹所做的修改都不可用于容器中。如果要为自定义镜像添加应用程序或其依赖项,我们建议您选择不属于以下预定义路径的目录:

    • /var/log/fluentd

    • /var/log/spark/user

    • /var/log/spark/apps

    • /mnt

    • /tmp

    • /home/hadoop

  • 您的自定义镜像可以上载到任何兼容 Docker 的存储库,例如 Amazon ECR、Docker Hub 或私有企业存储库。有关使用所选 Docker 存储库配置 Amazon EKS 集群身份验证的更多信息,请参阅从私有注册表拉取镜像