使用 Amazon Glue 交互式会话准备数据
Amazon Glue 交互式会话是一个按需的、无服务器的 Apache Spark 运行时系统环境,数据科学家和工程师可以使用它来快速构建、测试和运行数据准备和分析应用程序。
您可以通过启动 SageMaker Studio 笔记本来启动 Amazon Glue 交互式会话。创建 Studio 笔记本时,请选择内置的 Glue PySpark
或 Glue Spark
内核。这将自动启动交互式的无服务器 Spark 会话。您无需预置或管理任何计算集群或基础设施。初始化后,您可以在 Studio 笔记本中,使用 Spark 探索 Amazon Glue Data Catalog、执行复杂的查询以及交互式分析和准备数据。然后,您可以使用 SageMaker Studio 中的专用 ML 工具,使用准备好的数据来构建、训练、调整和部署模型。
在 SageMaker Studio 中启动 Amazon Glue 交互式会话之前,您需要设置相应的角色和策略。此外,您可能需要提供对其他资源的访问权限,例如用于存储的 Amazon S3 存储桶,这可能需要额外的策略。有关必需和额外的 IAM 策略更多信息,请参阅 SageMaker Studio 中 Amazon Glue 交互式会话的权限。
SageMaker Studio 为您的 Amazon Glue 交互式会话提供默认配置,但是,您可以使用 Amazon Glue 的 Jupyter magic 命令完整目录来进一步自定义您的环境。有关可在 Amazon Glue 交互式会话中使用的默认和额外 Jupyter magic 的信息,请参阅在 SageMaker Studio 中启动 Amazon Glue 交互式会话。
支持连接到 Amazon Glue 交互式会话的映像和内核如下:
-
映像:SparkAnalytics 1.0,SparkAnalytics 2.0
-
内核:Glue Python [PySpark 和 Ray] 及 Glue Spark
先决条件:
您选择在 Studio 中启动 Amazon Glue 会话的 SparkAnalytics 映像是两个框架的组合:SparkMagic 框架(与 Amazon EMR 一起使用)和 Amazon Glue。因此,这两个框架的先决条件都适用。但是,如果您只计划使用 Amazon Glue 交互式会话,则无需设置 Amazon EMR 集群。在 Studio 中开始您的第一个 Amazon Glue 交互式会话之前,请完成以下操作:
-
完成使用 SparkMagic 映像所需的先决条件。有关先决条件的列表,请参阅使用 Studio 笔记本大规模准备数据中的先决条件部分。
-
创建同时拥有 Amazon Glue 和 SageMaker Studio 权限的执行角色。添加托管策略
AwsGlueSessionUserRestrictedServiceRole
,并创建包含权限sts:GetCallerIdentity
、iam:GetRole
和IAM:Passrole
的自定义策略。有关如何创建必要权限的说明,请参阅 SageMaker Studio 中 Amazon Glue 交互式会话的权限。 -
使用您创建的执行角色创建 SageMaker 域。有关如何创建域的说明,请参阅使用 IAM 加入。