SageMaker Spark for Python (PySpark) 示例 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker Spark for Python (PySpark) 示例

亚马逊 SageMaker 提供了一个 Apache Spark Python 库 (SageMaker PySpark),你可以用它来将 Apache Spark 应用程序与之集成。 SageMaker例如,您可以使用 Apache Spark 进行数据预处理以及模型训练和 SageMaker 托管。有关 SageMaker Apache Spark 库的信息,请参见在亚马逊上使用 Apache Spark SageMaker

下载 PySpark

你可以从 Spark GitHub 存储库中下载 Python Spark (PySpark) 和 Scala 库的SageMaker 源代码。

有关安装 SageMaker Spark 库的说明,请使用以下任一选项或访问SageMaker PySpark

  • 使用 pip 进行安装:

    pip install sagemaker_pyspark
  • 从源代码安装:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • 您还可以在使用Sparkmagic (PySpark)Sparkmagic (PySpark3)内核的笔记本实例中创建新的笔记本并连接到远程 Amazon EMR 集群。

    注意

    Amazon EMR 集群必须配置一个附加了AmazonSageMakerFullAccess策略的 IAM 角色。有关为 EMR 集群配置角色的信息,请参阅《Amazon EMR 管理指南》中的为 Amazon EMR 对 Amazon 服务的权限配置 IAM 角色

PySpark 例子

有关使用的示例 SageMaker PySpark,请参阅:

要在笔记本实例上运行笔记本,请参阅示例笔记本。要在 Studio 上运行笔记本,请参阅创建或打开 Amazon SageMaker Studio 经典笔记本电脑