

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Amazon Glue 交互式会话准备数据
<a name="studio-notebooks-glue"></a>

[Amazon Glue 交互式会话](https://docs.amazonaws.cn/glue/latest/dg/interactive-sessions-overview.html)是一种无服务器服务，您可以利用它来收集、转换、清理数据，并为数据湖和数据管道中的数据存储做好准备。 Amazon Glue 交互式会话提供了一个按需、无服务器的 Apache Spark 运行时环境，您可以在专用数据处理单元 (DPU) 上几秒钟内完成初始化，而无需配置和管理复杂的计算集群基础设施。初始化后，您可以直接在 Studio 或 Studio Classic 笔记本中浏览 Amazon Glue 数据目录 Amazon Lake Formation、运行大型查询、访问受控制的数据，以及使用 Spark 以交互方式分析和准备数据。然后，您可以使用 Studi SageMaker o 或 Studio Classic 中专门构建的机器学习工具，使用准备好的数据来训练、调整和部署模型。如果您想要对可配置性和灵活性进行适度控制的无服务器 Spark 服务，则应考虑使用 Amazon Glue 交互式会话来处理数据准备工作负载。

您可以通过在 Studio 或 Studio Classic 中启动 JupyterLab 笔记本来启动 Amazon Glue 交互式会话。启动笔记本时，请选择内置的 `Glue PySpark and Ray` 或 `Glue Spark` 内核。这将自动启动交互式的无服务器 Spark 会话。您无需预置或管理任何计算集群或基础设施。初始化后，您可以在 Studio 或 Studio Classic 笔记本中探索数据并与之交互。

在 Studio 或 Studio Classic 中开始 Amazon Glue 互动会话之前，您需要设置相应的角色和策略。此外，您可能还需要提供对其他资源的访问权限，如 Amazon S3 存储桶。有关所需 IAM 策略的更多信息，请参阅 [Studio 或 Studio 经典版中 Amazon Glue 交互式会话](getting-started-glue-sm.md#glue-sm-iam)。

Studio 和 Studio Classic 为您的 Amazon Glue 交互式会话提供了默认配置，但是，您可以使用完整 Amazon Glue的 Jupyter 魔法命令目录来进一步自定义您的环境。有关可在 Amazon Glue 交互式会话中使用的默认和其他 Jupyter 魔法的信息，请参阅。[在 Studio 或 Studio 经典版中配置 Amazon Glue 互动会话](getting-started-glue-sm.md#glue-sm-magics)
+ 对于启动 Amazon Glue 交互式会话的 Studio Classic 用户，他们可以从以下图像和内核中进行选择：
  + 映像：`SparkAnalytics 1.0`、`SparkAnalytics 2.0`
  + 内核：`Glue Python [PySpark and Ray]` 和 `Glue Spark`
+ 对于 Studio 用户，请使用默认的[SageMaker 发行版映像](https://github.com/aws/sagemaker-distribution)并选择一个`Glue Python [PySpark and Ray]`或一个`Glue Spark`内核。