本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Spark 原生精细访问控制允许列入名单 API PySpark
为了维护安全性和数据访问控制,Spark 精细访问控制 (FGAC) 限制了某些功能。 PySpark 这些限制是通过以下方式强制执行的:
-
用于阻止函数执行的显式阻塞
-
使函数无法运行的架构不兼容
-
可能引发错误、返回被拒绝访问的消息或在调用时什么都不做的函数
Spark FGAC 不支持以下 PySpark 功能:
-
RDD 操作(因 Spark RDDUnsupported 异常而被阻止)
-
Spark Connect(不支持)
-
Spark 直播(不支持)
虽然我们已经在 Native Spark FGAC 环境中测试了列出的函数并确认它们可以按预期运行,但我们的测试通常仅涵盖每个 API 的基本用法。具有多种输入类型或复杂逻辑路径的函数可能有未经测试的场景。
对于此处未列出且不明显属于上述不支持的类别的任何函数,我们建议:
-
首先在 gamma 环境或小规模部署中对其进行测试
-
在生产中使用它们之前对其行为进行验证
注意
如果您看到列出了一个类方法但没有列出其基类,则该方法应该仍然有效,这只是意味着我们尚未明确验证基类构造函数。
PySpark API 被组织成多个模块。下表详细说明了对每个模块中方法的普遍支持。
| 模块名称 | Status | 注意 |
|---|---|---|
|
pystark_core |
支持 |
该模块包含主要的 RDD 类,这些函数大多不受支持。 |
|
pystark_sql |
支持 |
|
|
pyspark 测试 |
支持 |
|
|
pyspark_res |
支持 |
|
|
pyspark_stre |
阻止 |
Spark FGAC 中已禁止使用直播功能。 |
|
pyspark_mllib |
实验性的 |
该模块包含基于 RDD 的 ML 操作,这些函数大多不受支持。此模块未经过全面测试。 |
|
pyspark_ml |
实验性的 |
该模块包含 DataFrame 基于机器学习的操作,这些函数大多受支持。此模块未经过全面测试。 |
|
pypark_pandas |
支持 |
|
|
pyspark_pandas_low |
支持 |
|
| pyspark_con |
阻止 |
Spark FGAC 中禁止使用 Spark Connect。 |
| pyspark_pandas_conn |
阻止 |
Spark FGAC 中禁止使用 Spark Connect。 |
| pyspark_pandas_slow_conn |
阻止 |
Spark FGAC 中禁止使用 Spark Connect。 |
| pyspark 错误 |
实验性的 |
此模块未经过全面测试。无法使用自定义错误类。 |
API 许可名单
为了获得可下载且更易于搜索的列表,可以在 Native FGAC 中允许的 Python 函数中找到包含模块和类的文件。