教程:将 SageMaker 笔记本与您的开发终端节点结合使用 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:将 SageMaker 笔记本与您的开发终端节点结合使用

InAmazon Glue中,您可以创建开发终端节点,然后创建 SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。SageMaker 笔记本是一个运行 Jupyter 笔记本应用程序的完全托管的机器学习计算实例。

本教程假定您已执行中概述的步骤进行操作 教程的先决条件

  1. 在 Amazon Glue 控制台中,选择 Dev endpoints (开发终端节点) 以导航到开发终端节点列表。

  2. 选中要使用的开发终端节点名称旁边的复选框,然后在 Action (操作) 菜单上,选择 Create SageMaker notebook (创建 SageMaker 笔记本)

  3. 填写 Create and configure a notebook (创建和配置笔记本) 页面,如下所示:

    1. 输入笔记本名称。

    2. Attach to development endpoint (附加到开发终端节点) 下,确认开发终端节点。

    3. 创建或选择 AWS Identity and Access Management (IAM) 角色。

      建议您创建角色。如果您使用现有角色,请确保该角色具有所需的权限。有关更多信息,请参阅 第 6 步:为 SageMaker 笔记本创建 IAM 策略

    4. (可选)选择 VPC、子网和一个或多个安全组。

    5. (可选)选择 Amazon Key Management Service 加密密钥。

    6. (可选)为笔记本实例添加标签。

  4. 选择 Create Notebook (创建笔记本)。在 Notebooks (笔记本) 页面上,选择右上角的刷新图标,然后继续,直至 Status (状态) 显示 Ready

  5. 选中新笔记本名称旁边的复选框,然后选择 Open notebook (打开笔记本)

  6. 创建新的笔记本电脑:在存储库的Jupyter页面上,选择New,然后选择闪光魔法 (PySpark)

    现在,您的屏幕上显示的内容应类似于:

    
          jupyter 页面具有菜单栏、工具栏和可在其中输入语句的宽文本字段。
  7. (可选)在页面顶部,选择 Untitled (无标题),然后为笔记本提供一个名称。

  8. 要启动 Spark 应用程序,请在笔记本中输入以下命令,然后在工具栏中选择 Run (运行)

    spark

    在短暂的延迟后,您将会看到以下响应:

    
          系统响应显示 Spark 应用程序状态并输出以下消息:SparkSession 可作为 “火花” 提供。
  9. 创建一个动态框架并对其运行查询:复制、粘贴并运行以下代码,这将输出persons_json表。

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()