教程: 使用 SageMaker 具有您的开发端点的笔记本 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程: 使用 SageMaker 具有您的开发端点的笔记本

在 AWS Glue 中,您可以创建开发终端节点,然后创建 SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。甲 SageMaker Notebook是运行JupyterNotebook应用程序的完全管理的机器学习计算实例。

本教程假定您已执行教程的先决条件中概述的步骤。

  1. 在 AWS Glue 控制台中,选择 Dev endpoints (开发终端节点) 以导航到开发终端节点列表。

  2. 选中要使用的开发端点名称旁边的复选框,并在 操作 菜单,选择 创建 SageMaker 笔记本.

  3. 填写 Create and configure a notebook (创建和配置笔记本) 页面,如下所示:

    1. 输入笔记本名称。

    2. Attach to development endpoint (附加到开发终端节点) 下,确认开发终端节点。

    3. 创建或选择 AWS Identity and Access Management (IAM) 角色。

      建议您创建角色。如果您使用现有角色,请确保该角色具有所需的权限。有关更多信息,请参阅步骤 6: 为 IAM 笔记本创建 SageMaker 策略

    4. (可选)选择 VPC、子网和一个或多个安全组。

    5. (可选)选择 AWS Key Management Service 加密密钥。

    6. (可选)为笔记本实例添加标签。

  4. 选择 Create Notebook (创建笔记本)。在 Notebooks (笔记本) 页面上,选择右上角的刷新图标,然后继续,直至 Status (状态) 显示 Ready

  5. 选中新笔记本名称旁边的复选框,然后选择 Open notebook (打开笔记本)

  6. 创建新的笔记本: 在 小便器 页面,选择 ,然后选择 火花(PySpark).

    现在,您的屏幕上显示的内容应类似于:

    
          jupyter 页面具有菜单栏、工具栏和可在其中输入语句的宽文本字段。
  7. (可选)在页面顶部,选择 Untitled (无标题),然后为笔记本提供一个名称。

  8. 要启动 Spark 应用程序,请在笔记本中输入以下命令,然后在工具栏中选择 Run (运行)

    spark

    在短暂的延迟后,您将会看到以下响应:

    
          系统响应显示Spark应用程序状态并输出以下消息: SparkSession 可用作“spark”。
  9. 创建动态帧并针对它运行查询: 复制、粘贴和运行以下代码,输出的计数和模式 persons_json 表。

    import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) persons_DyF = glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print ("Count: ", persons_DyF.count()) persons_DyF.printSchema()