指向 GitHub 上 Amazon EMR on EKS 最佳实践指南的链接 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

指向 GitHub 上 Amazon EMR on EKS 最佳实践指南的链接

我们通过开源社区协作编写了 Amazon EMR on EKS 最佳实践指南,以便我们可以快速迭代,并为创建和运行虚拟集群的各个方面提供建议。我们建议您在这些部分中使用 Amazon EMR on EKS 最佳实践指南。选择每个部分中的链接转到 GitHub 站点。

安全性

注意

有关 Amazon EMR on EKS 安全性的更多信息,请参阅 Amazon EMR on EKS 安全最佳实践

加密最佳实践:如何对静态数据和传输中的数据进行加密。

管理网络安全描述了如何在连接 Amazon RDS 和 Amazon Redshift 等 Amazon Web Services 服务 中托管的数据源时为 Amazon EMR on EKS 的容器组(pod)配置安全组。

使用 Amazon Secrets Manager 存储密钥

Pyspark 作业提交

Pyspark 作业提交:使用 zip、egg、wheel 和 pex 等打包格式为 PySpark 应用程序指定不同类型的打包。

存储

使用 EBS 卷:如何对需要 EBS 卷的作业使用静态和动态预置。

使用 Amazon FSx for Lustre 卷:如何对需要 Amazon FSx for Lustre 卷的作业使用静态和动态预置。

使用实例存储卷:如何使用实例存储卷进行作业处理。

元数据仓集成

使用 Hive 元数据仓:提供使用 Hive 元数据仓的不同方式。

使用 Amazon Glue:提供配置 Amazon Glue 目录的不同方式。

调试

使用 Spark 调试:如何更改日志级别。

在驱动程序容器组(pod)上连接到 Spark UI

如何通过 Amazon EMR on EKS 使用自托管 Spark 历史记录服务器

排查 Amazon EMR on EKS 中的问题

故障排除

节点放置

将 Kubernetes 节点选择器用于 single-az 和其他使用案例。

使用 Fargate 节点放置

性能

使用动态资源分配(DRA)

Amazon VPC 容器网络接口插件(CNI)、Cluster Autoscaler 和 Core DNS 的 EKS 最佳实践

成本优化

使用竞价型实例:Amazon EC2 竞价型实例最佳实践以及如何使用 Spark 节点停用功能。

使用 Amazon Outposts

使用 Amazon Outposts 运行 Amazon EMR on EKS