指向 EKS 上的 Amazon EMR 最佳实践指南的链接 GitHub - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

指向 EKS 上的 Amazon EMR 最佳实践指南的链接 GitHub

我们通过开源社区协作编写了 Amazon EMR on EKS 最佳实践指南,这样我们就可以快速迭代并为各种使用案例提供建议。我们建议您在这些部分中使用 Amazon EMR on EKS 最佳实践指南。选择每个部分中的链接以转到该 GitHub站点。

安全性

注意

有关 Amazon EMR on EKS 安全性的更多信息,请参阅 Amazon EMR on EKS 安全最佳实践

加密最佳实践:如何对静态数据和传输中的数据进行加密。

管理网络安全描述了如何在连接 Amazon RDS 和 Amazon Redshift 等 Amazon Web Services 中托管的数据源时为 Amazon EMR on EKS 的容器组(pod)配置安全组。

使用 Amazon Secrets Manager 存储密钥

Pyspark 作业提交

Pyspark 作业提交:使用 zip、egg、wheel 和 pex 等打包格式为 PySpark 应用程序指定不同类型的打包。

存储

使用 EBS 卷:如何对需要 EBS 卷的作业使用静态和动态预置。

使用 Amazon FSx for Lustre 卷:如何对需要 Amazon FSx for Lustre 卷的作业使用静态和动态预置。

使用实例存储卷:如何使用实例存储卷进行作业处理。

元数据仓集成

使用 Hive 元数据仓:提供使用 Hive 元数据仓的不同方式。

使用 Amazon Glue:提供配置 Amazon Glue 目录的不同方式。

调试

使用 Spark 调试:如何更改日志级别。

在驱动程序容器组(pod)上连接到 Spark UI

如何通过 Amazon EMR on EKS 使用自托管 Spark 历史记录服务器

排查 Amazon EMR on EKS 中的问题

故障排除

节点放置

将 Kubernetes 节点选择器用于 single-az 和其他使用案例。

使用 Fargate 节点放置

Performance

使用动态资源分配(DRA)

Amazon VPC 容器网络接口插件(CNI)、Cluster Autoscaler 和 Core DNS 的 EKS 最佳实践

成本优化

使用竞价型实例:Amazon EC2 竞价型实例最佳实践以及如何使用 Spark 节点停用功能。

使用 Amazon Outposts

使用 Amazon Outposts 运行 Amazon EMR on EKS