应用程序、功能和限制 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

应用程序、功能和限制

支持的应用程序

Amazon EMR 与 Amazon Lake Formation 之间的集成支持下列应用程序:

  • EMR Notebooks

  • Apache Zeppelin

  • 通过 EMR Notebooks 运行的 Apache Spark

重要

当前不支持其他应用程序。为确保您的集群安全,请勿安装此列表之外的其他应用程序。

支持的功能

以下 Amazon EMR 功能可用于 EMR 和 Lake Formation:

  • 静态和动态加密

  • 使用集群专用密钥分发中心(KDC)进行 Kerberos 身份验证,无需跨领域信任

  • 实例组、实例机群和 Spot 实例

  • 在正在运行的集群上重新配置应用程序

  • 使用 Amazon CloudTrail 监控数据访问

    注意

    当笔记本用户使用 Spark SQL 访问受 Lake Formation 保护的数据时,Amazon CloudTrail 会创建一个条目。每个 CloudTrail 条目在 lakeFormationPrincipal 属性中显示用户的 Active Directory 名称。

  • EMRFS 服务器端加密(SSE)

    注意

    Amazon EMR 加密设置控制 SSE。有关更多信息,请参阅加密选项

以下 EMR 功能目前不能用于 Lake Formation 集成:

  • 步骤

  • 多个主节点

  • EMRFS 一致视图

  • EMRFS 客户端加密(CSE)

Limitations

将 Amazon EMR 与 Amazon Lake Formation 结合使用时,请注意以下限制:

  • Amazon EMR(集成 Lake Formation)目前已在 16 个Amazon区域推出:美国东部(俄亥俄和弗吉尼亚北部)、美国西部(加利福尼亚北部和俄勒冈)、亚太地区(孟买、首尔、新加坡、悉尼和东京)、加拿大(中部)、欧洲(法兰克福、爱尔兰、伦敦、巴黎和斯德哥尔摩)、南美洲(圣保罗)。

  • 使用 Lake Formation 的 Amazon EMR 目前不适用于 Amazon Web Services Single Sign On(SSO)。

  • 您必须使用用户定义的 IAM 角色而不是 Lake Formation 服务相关角色,来使用 Lake Formation 注册 Amazon EMR 集群使用的数据位置。当您与 EMR 集成时,Lake Formation 不支持使用其服务相关角色。有关创建用户定义角色以使用 Lake Formation 注册数据位置的信息,请参阅用于注册位置的角色的要求

  • 务必明确的是,Lake Formation 列级别授权可防止用户访问自己无权访问的列中的数据。但是,在某些情况下,用户可以访问描述表中所有列的元数据,包括那些无权访问的列。对于使用 Avro 存储格式或使用自定义串行器/反串行化器(SerDe)的表(其中表架构在表属性中随 SerDe 定义一起定义),此列元数据存储的表的表属性中。在将 Amazon EMR 与 Lake Formation 一起使用时,我们建议您查看所保护表的表属性的内容,并在可能的情况下限制存储在表属性中的信息,以防止任何敏感元数据对用户可见。

  • 在启用 Lake Formation 的集群中,Spark SQL 只能读取由 Amazon Glue 数据目录管理的数据,而无法访问在 Amazon Glue 或 Lake Formation 之外管理的数据。如果在集群部署期间为其他Amazon服务选择的 IAM 角色具有策略,允许集群访问其他数据源,则可以使用非 Spark SQL 操作访问其他数据源中的数据。

    例如,在一组 Lake Formation 表之外,您可能希望 Spark 任务还可以访问两个 Amazon S3 存储桶和一个 Amazon DynamoDB 表。在这种情况下,您可以创建一个角色,该角色可以访问两个 Amazon S3 存储桶和 Amazon DynamoDB 表,并在启动集群时将其用于 IAM role for other Amazon services

  • Spark 任务提交必须通过 EMR Notebooks、Zeppelin 或 Livy 完成。通过 spark-submit 提交的 Spark 任务目前不可用于 Lake Formation。

  • Spark SQL 只能读取 Lake Formation 表。当前不支持在 Lake Formation 中使用 Spark SQL 写入表或创建新表。

  • 当前不支持使用 Spark SQL 访问使用 Hive Map 数据类型的 Lake Formation 表。

  • 当前没有可用于 EMR Notebooks 和 Zeppelin 的集中注销。

  • 此版本与 Lake Formation 结合使用时,不支持 Spark 的统计数据收集的回退到 HDFS 功能。此功能的属性 spark.sql.statistics.fallBackToHdfs 默认情况下是禁用的。手动启用属性时,此功能不适用。

  • 当前不支持查询包含 Amazon S3 中不同表路径中的分区的表。

  • 目前不支持 Kerberos 身份验证的跨领域信任。