Spark 原生精细访问控制允许列入名单 API PySpark - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Spark 原生精细访问控制允许列入名单 API PySpark

为了维护安全性和数据访问控制,Spark 精细访问控制 (FGAC) 限制了某些功能。 PySpark 这些限制是通过以下方式强制执行的:

  • 用于阻止函数执行的显式阻塞

  • 使函数无法运行的架构不兼容

  • 可能引发错误、返回被拒绝访问的消息或在调用时什么都不做的函数

Spark FGAC 不支持以下 PySpark 功能:

  • RDD 操作(因 Spark RDDUnsupported 异常而被阻止)

  • Spark Connect(不支持)

  • Spark 直播(不支持)

虽然我们已经在 Native Spark FGAC 环境中测试了列出的函数并确认它们可以按预期运行,但我们的测试通常仅涵盖每个 API 的基本用法。具有多种输入类型或复杂逻辑路径的函数可能有未经测试的场景。

对于此处未列出且不明显属于上述不支持的类别的任何函数,我们建议:

  • 首先在 gamma 环境或小规模部署中对其进行测试

  • 在生产中使用它们之前对其行为进行验证

注意

如果您看到列出了一个类方法但没有列出其基类,则该方法应该仍然有效,这只是意味着我们尚未明确验证基类构造函数。

PySpark API 被组织成多个模块。下表详细说明了对每个模块中方法的普遍支持。

模块名称 Status 注意

pystark_core

支持

该模块包含主要的 RDD 类,这些函数大多不受支持。

pystark_sql

支持

pyspark 测试

支持

pyspark_res

支持

pyspark_stre

阻止

Spark FGAC 中已禁止使用直播功能。

pyspark_mllib

实验性的

该模块包含基于 RDD 的 ML 操作,这些函数大多不受支持。此模块未经过全面测试。

pyspark_ml

实验性的

该模块包含 DataFrame 基于机器学习的操作,这些函数大多受支持。此模块未经过全面测试。

pypark_pandas

支持

pyspark_pandas_low

支持

pyspark_con

阻止

Spark FGAC 中禁止使用 Spark Connect。

pyspark_pandas_conn

阻止

Spark FGAC 中禁止使用 Spark Connect。

pyspark_pandas_slow_conn

阻止

Spark FGAC 中禁止使用 Spark Connect。

pyspark 错误

实验性的

此模块未经过全面测试。无法使用自定义错误类。

API 许可名单

为了获得可下载且更易于搜索的列表,可以在 Native FGAC 中允许的 Python 函数中找到包含模块和类的文件。