教程:将 SageMaker 笔记本与您的开发终端节点结合使用 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

教程:将 SageMaker 笔记本与您的开发终端节点结合使用

在 AWS Glue 中,您可以创建开发终端节点,然后创建 SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。SageMaker 笔记本是一个运行 Jupyter 笔记本应用程序的完全托管的机器学习计算实例。

本教程假定您已执行中概述的步骤进行操作 教程的先决条件

  1. 在 AWS Glue 控制台中,选择 Dev endpoints (开发终端节点) 以导航到开发终端节点列表。

  2. 选中要使用的开发终端节点名称旁边的复选框,然后在 Action (操作) 菜单上,选择 Create SageMaker notebook (创建 SageMaker 笔记本)

  3. 填写 Create and configure a notebook (创建和配置笔记本) 页面,如下所示:

    1. 输入笔记本名称。

    2. Attach to development endpoint (附加到开发终端节点) 下,确认开发终端节点。

    3. 创建或选择 AWS Identity and Access Management (IAM) 角色。

      建议您创建角色。如果您使用现有角色,请确保该角色具有所需的权限。有关更多信息,请参阅 步骤 6:创建用于 SageMaker 笔记本的 IAM 策略

    4. (可选)选择 VPC、子网和一个或多个安全组。

    5. (可选)选择 AWS Key Management Service 加密密钥。

    6. (可选)为笔记本实例添加标签。

  4. 选择 Create Notebook (创建笔记本)。在 Notebooks (笔记本) 页面上,选择右上角的刷新图标,然后继续,直至 Status (状态) 显示 Ready

  5. 选中新笔记本名称旁边的复选框,然后选择 Open notebook (打开笔记本)

  6. 创建新的笔记本:在 jupyter 页面上,选择 New (新建),然后选择 Sparkmagic (PySpark)

    现在,您的屏幕上显示的内容应类似于:

    
          jupyter 页面具有菜单栏、工具栏和可在其中输入语句的宽文本字段。
  7. (可选)在页面顶部,选择 Untitled (无标题),然后为笔记本提供一个名称。

  8. 要启动 Spark 应用程序,请在笔记本中输入以下命令,然后在工具栏中选择 Run (运行)

    spark

    在短暂的延迟后,您将会看到以下响应:

    
          系统响应显示 Spark 应用程序状态并输出以下消息:“SparkSession available as 'spark' (SparkSession 用作‘spark’)”。
  9. 创建动态帧并对其运行查询:复制、粘贴并运行以下代码,这将输出 persons_json 表的计数和架构。

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()