本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
EKS 最佳实践指南上的 Amazon EMR 链接 GitHub
我们通过开源社区协作编写了 Amazon EMR on EKS 最佳实践指南
安全性
注意
有关 Amazon EMR on EKS 安全性的更多信息,请参阅 Amazon EMR on EKS 安全最佳实践。
加密最佳实践:
管理网络安全
Pyspark 作业提交
Pyspark 作业提交:
仓储服务
使用 EBS 卷:
使用 Amazon FSx 获取 Lustre 卷:
使用实例存储卷:
元数据仓集成
使用 Hive 元数据仓:
使用 Amazon Glue:
调试
使用 Spark 调试:
如何通过 Amazon EMR on EKS 使用自托管 Spark 历史记录服务器
排查 Amazon EMR on EKS 中的问题
故障排除
节点放置
将 Kubernetes 节点选择器single-az 和其他使用案例。
性能
默认情况下,在 Amazon EMR Spark 中spark.dynamicAllocation.preallocateExecutors处于启用状态。当spark.dynamicAllocation.initialExecutors和spark.dynamicAllocation.minExecutors未设置时,Spark 可能会根据估计的任务计数在启动时请求大量执行器,即使对于小型工作负载也是如此。为避免过多的容器流失,请使用以下方法之一:
将
spark.dynamicAllocation.initialExecutors或spark.dynamicAllocation.minExecutors设置为适合您的工作负载大小的值。设置
spark.dynamicAllocation.preallocateExecutors.maxEstimatedTasks为较低的值以限制启动时请求的执行者数量。设置
spark.dynamicAllocation.preallocateExecutorsfalse为可完全禁用执行程序预分配。
Amazon VPC 容器网络接口插件(CNI)、Cluster Autoscaler 和 Core DNS 的 EKS 最佳实践
成本优化
使用竞价型实例:
使用 Amazon Outposts
使用 EKS 在 EKS 上运行亚马逊 EMR Amazon Outposts