EKS 最佳实践指南上的 Amazon EMR 链接 GitHub - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

EKS 最佳实践指南上的 Amazon EMR 链接 GitHub

我们通过开源社区协作编写了 Amazon EMR on EKS 最佳实践指南,以便我们可以快速迭代,并为创建和运行虚拟集群的各个方面提供建议。我们建议您在这些部分中使用 Amazon EMR on EKS 最佳实践指南。选择每个部分中的链接以转到该 GitHub站点。

安全性

注意

有关 Amazon EMR on EKS 安全性的更多信息,请参阅 Amazon EMR on EKS 安全最佳实践

加密最佳实践:如何对静态数据和传输中的数据进行加密。

管理网络安全描述了如何在连接 Amazon RDS 和 Amazon Redshift 等 Amazon Web Services 服务 中托管的数据源时为 Amazon EMR on EKS 的容器组(pod)配置安全组。

使用 Amazon 密钥管理器存储机密

Pyspark 作业提交

Pyspark 作业提交:使用 zip、egg、wheel 和 pex 等打包格式为 PySpark 应用程序指定不同类型的打包。

存储

使用 EBS 卷:如何对需要 EBS 卷的作业使用静态和动态预置。

使用 Amazon FSx 获取 Lustre 卷:如何为需要亚马逊 FSx 提供 Luster 卷的任务使用静态和动态配置。

使用实例存储卷:如何使用实例存储卷进行作业处理。

元数据仓集成

使用 Hive 元数据仓:提供使用 Hive 元数据仓的不同方式。

使用 Amazon Glue:提供了不同的方式来配置 Amazon Glue 目录。

调试

使用 Spark 调试:如何更改日志级别。

在驱动程序容器组(pod)上连接到 Spark UI

如何通过 Amazon EMR on EKS 使用自托管 Spark 历史记录服务器

排查 Amazon EMR on EKS 中的问题

故障排除

节点放置

将 Kubernetes 节点选择器用于 single-az 和其他使用案例。

使用 Fargate 节点放置

性能

使用动态资源分配(DRA)

Amazon VPC 容器网络接口插件(CNI)、Cluster Autoscaler 和 Core DNS 的 EKS 最佳实践

成本优化

使用竞价型实例:Amazon EC2 竞价型实例最佳实践以及如何使用 Spark 节点停用功能。

使用 Amazon Outposts

使用 EKS 在 EKS 上运行亚马逊 EMR Amazon Outposts