使用 Amazon Glue 交互式会话准备数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon Glue 交互式会话准备数据

Amazon Glue 交互式会话是一个按需的、无服务器的 Apache Spark 运行时系统环境,数据科学家和工程师可以使用它来快速构建、测试和运行数据准备和分析应用程序。

您可以通过启动 SageMaker Studio 笔记本来启动 Amazon Glue 交互式会话。创建 Studio 笔记本时,请选择内置的 Glue PySparkGlue Spark 内核。这将自动启动交互式的无服务器 Spark 会话。您无需预置或管理任何计算集群或基础设施。初始化后,您可以在 Studio 笔记本中,使用 Spark 探索 Amazon Glue Data Catalog、执行复杂的查询以及交互式分析和准备数据。然后,您可以使用 SageMaker Studio 中的专用 ML 工具,使用准备好的数据来构建、训练、调整和部署模型。

在 SageMaker Studio 中启动 Amazon Glue 交互式会话之前,您需要设置相应的角色和策略。此外,您可能需要提供对其他资源的访问权限,例如用于存储的 Amazon S3 存储桶,这可能需要额外的策略。有关必需和额外的 IAM 策略更多信息,请参阅 SageMaker Studio 中 Amazon Glue 交互式会话的权限

SageMaker Studio 为您的 Amazon Glue 交互式会话提供默认配置,但是,您可以使用 Amazon Glue 的 Jupyter magic 命令完整目录来进一步自定义您的环境。有关可在 Amazon Glue 交互式会话中使用的默认和额外 Jupyter magic 的信息,请参阅在 SageMaker Studio 中启动 Amazon Glue 交互式会话

支持连接到 Amazon Glue 交互式会话的映像和内核如下:

  • 映像:SparkAnalytics 1.0,SparkAnalytics 2.0

  • 内核:Glue Python [PySpark 和 Ray] 及 Glue Spark

先决条件:

您选择在 Studio 中启动 Amazon Glue 会话的 SparkAnalytics 映像是两个框架的组合:SparkMagic 框架(与 Amazon EMR 一起使用)和 Amazon Glue。因此,这两个框架的先决条件都适用。但是,如果您只计划使用 Amazon Glue 交互式会话,则无需设置 Amazon EMR 集群。在 Studio 中开始您的第一个 Amazon Glue 交互式会话之前,请完成以下操作:

  • 完成使用 SparkMagic 映像所需的先决条件。有关先决条件的列表,请参阅使用 Studio 笔记本大规模准备数据中的先决条件部分。

  • 创建同时拥有 Amazon Glue 和 SageMaker Studio 权限的执行角色。添加托管策略 AwsGlueSessionUserRestrictedServiceRole,并创建包含权限 sts:GetCallerIdentityiam:GetRoleIAM:Passrole 的自定义策略。有关如何创建必要权限的说明,请参阅 SageMaker Studio 中 Amazon Glue 交互式会话的权限

  • 使用您创建的执行角色创建 SageMaker 域。有关如何创建域的说明,请参阅使用 IAM 加入