使用 SageMaker AI Spark for Python 的资源 (PySpark) 示例 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker AI Spark for Python 的资源 (PySpark) 示例

Amazon SageMaker AI 提供了一个 Apache Spark Python 库 (SageMaker AI PySpark),你可以用它来将 Apache Spark 应用程序与 SageMaker AI 集成。本主题包含可帮助您入门的示例 PySpark。有关 SageMaker AI Apache Spark 库的信息,请参阅Apache Spark 搭载亚马逊 A SageMaker I

下载 PySpark

你可以从 SageMaker AI Spark 存储库中下载 Python Spark (PySpark) 和 Scala GitHub 库的源代码。

有关安装 SageMaker AI Spark 库的说明,请使用以下任一选项或访问 SageMaker AI PySpark

  • 使用 pip 安装:

    pip install sagemaker_pyspark
  • 从源代码安装:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • 您还可以在使用 Sparkmagic (PySpark)Sparkmagic (PySpark3) 内核的笔记本实例中创建新笔记本,并连接到远程 Amazon EMR 集群。

    注意

    Amazon EMR 集群必须配置有附加 AmazonSageMakerFullAccess 策略的 IAM 角色。有关为 EMR 集群配置角色的信息,请参阅《Amazon EMR 管理指南》中的为 Amazon EMR 对 Amazon 服务的权限配置 IAM 角色

PySpark 例子

有关使用 SageMaker AI 的示例 PySpark,请参阅:

要在笔记本实例上运行笔记本,请参阅访问示例笔记本。要在 Studio 上运行笔记本,请参阅创建或打开 Amazon SageMaker Studio 经典笔记本电脑