第 1 步：使用 Athena 将您的数据编入索引 Amazon S3 和 Amazon Glue 步骤 2：授予 Studio 访问 Athena 的权限步骤 3：在中启用 Athena 默认连接 JupyterLab 步骤 4：在 Amazon S3 中查询数据

快速入门：在 Amazon S3 中查询数据

用户可以使用 SQL 扩展程序从 JupyterLab 笔记本运行 SQL 查询，从而分析存储在 Amazon S3 中的数据。该扩展与 Athena 集成，只需几个额外步骤就能实现 Amazon S3 中数据的功能。

本节将引导您完成将数据从 Amazon S3 加载到 Athena，然后使用 SQL 扩展程序查询这些数据的 JupyterLab 步骤。您将创建 Athena 数据源 Amazon Glue 和爬虫来索引您的 Amazon S3 数据，配置适当的 IAM 权限以允许 JupyterLab 访问 Athena，然后连接到 Athena 以查询数据。 JupyterLab 完成这几个步骤后，您将能够使用 JupyterLab 笔记本中的 SQL 扩展来分析 Amazon S3 数据。

先决条件

使用具有管理员权限的 Amazon Identity and Access Management (IAM) 用户账户登录 Amazon 管理控制台。有关如何注册 Amazon 账户并创建具有管理权限的用户的信息，请参阅完成 Amazon A SageMaker I 先决条件。
拥有 A SageMaker I 域和用户个人资料才能访问 SageMaker Studio。有关如何设置 A SageMaker I 环境的信息，请参阅使用 Amazon A SageMaker I 的快速设置。
使用 Amazon S3 存储桶和文件夹来存储 Athena 的查询结果，使用与您的 A Amazon I 环境相同的区域和账户。 SageMaker 有关如何在 Amazon S3 中创建存储桶的信息，请参阅 Amazon S3 文档中的创建存储桶。您将把该存储桶和文件夹配置为查询输出位置。

访问和查询 Amazon S3 中的数据：

第 1 步：为您的 Amazon S3 数据设置 Athena 数据源 Amazon Glue 和爬虫
步骤 2：授予 Studio 访问 Athena 的权限
步骤 3：在中启用 Athena 默认连接 JupyterLab
步骤 4：使用 SQL 扩展程序从 JupyterLab 笔记本中查询 Amazon S3 中的数据

第 1 步：为您的 Amazon S3 数据设置 Athena 数据源 Amazon Glue 和爬虫

请按照以下步骤为 Amazon S3 中的数据编制索引，并在 Athena 中创建表格。

注意

为避免来自不同 Amazon S3 位置的表名之间发生碰撞，请为每个位置创建单独的数据来源和爬网程序。除非有前缀，否则每个数据来源都会创建一个以包含这些数据来源的文件夹命名的表。

配置查询结果位置
1. 前往 Athena 控制台:. https://console.aws.amazon.com/athena/
2. 从左侧菜单中选择工作组。
3. 按照 primary 工作组的链接，选择编辑。
4. 在查询结果配置部分，输入输出目录的 Amazon S3 路径，然后选择保存更改。
为 Amazon S3 数据创建 Athena 数据来源
1. 在 Athena 管理控制台的左侧菜单中选择数据来源，然后选择创建数据来源。
2. 选择 S3- Amazon Glue 数据目录，然后选择 “下一步”。
3. 保留默认的 Amazon Glue 此账户中的数据目录，选择在 Amazon Glue 中创建爬网程序，然后选择在 Amazon Glue 中创建。这将打开 Amazon Glue 控制台。
用于抓 Amazon Glue 取您的数据源
1. 为新爬网程序输入名称和描述，然后选择下一步。
2. 在数据来源下，选择添加数据来源。
  1. 如果包含您的数据的 Amazon Amazon S3 存储桶与 Amazon 您的 SageMaker AI 环境位于不同的账户中，请选择 S3 数据的位置。
  2. 输入 Amazon S3 中数据集的路径。例如：
```
s3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/
```
  3. 保留所有其他默认值，然后选择添加 Amazon S3 数据来源。您应该会在数据来源表中看到一个新的 Amazon S3 数据来源。
  4. 选择下一步。
3. 为爬网程序配置 IAM 角色，以便其访问数据。
  
  注意
  每个角色的作用域都是您指定的数据来源。重复使用角色时，请编辑 JSON 策略，添加要授予访问权限的任何新资源，或为此数据来源创建新角色。
  1. 选择创建新的 IAM 角色。
  2. 输入角色名称，然后选择下一步。
为表格创建或选择数据库
1. 如果 Athena 中没有现有数据库，请选择添加数据库，然后选择创建新数据库。
2. 回到之前的爬网程序创建选项卡，在输出配置中选择刷新按钮。现在您应该能在列表中看到新创建的数据库。
3. 选择数据库，在表名前缀中添加可选前缀，然后选择下一步。
  
  注意
  在前面的示例中，数据位于 s3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/，添加前缀 taxi-ride- 将创建一个名为 taxi-ride-year_2019 的表。当多个数据位置的文件夹名称相同时，添加前缀有助于防止表名碰撞。
选择创建爬网程序。
运行爬网程序，编制数据索引。等待爬网程序运行到 Completed 状态，这可能需要几分钟时间。

要确保创建了新表，请转至中的左侧菜单， Amazon Glue 然后选择数据库，然后选择表。现在您应该能看到一个包含数据的新表格。

步骤 2：授予 Studio 访问 Athena 的权限

在以下步骤中，您将授予用户配置文件的执行角色访问 Athena 的权限。

读取与用户配置文件相关联的执行角色的 ARN
1. 前往 SageMaker AI 控制台 https://console.aws.amazon.com/sagemaker/，在左侧菜单中选择 “域名”。
2. 按照您的域命名。
3. 在用户配置文件列表中，跟随用户配置文件的名称。
4. 在用户详情页面，复制执行角色的 ARN。

更新执行角色的策略

在 SageMaker AI 控制台的右上角找到您的 Amazon 地区和账户 ID。使用这些值和数据库名称，在文本编辑器中更新以下 JSON 策略中的占位符。


{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Sid": "GetS3AndDataSourcesMetadata",
			"Effect": "Allow",
			"Action": [
				"glue:GetDatabases",
				"glue:GetSchema",
				"glue:GetTables",
				"s3:ListBucket",
				"s3:GetObject",
				"s3:GetBucketLocation",
				"glue:GetDatabase",
				"glue:GetTable",
				"glue:ListSchemas",
				"glue:GetPartitions"
			],
			"Resource": [
				"arn:aws:s3:::*",
				"arn:aws:glue:region:account-id:catalog",
				"arn:aws:glue:region:account-id:database/db-name"
			]
		},
		{
			"Sid": "ExecuteAthenaQueries",
			"Effect": "Allow",
			"Action": [
				"athena:ListDataCatalogs",
				"athena:ListDatabases",
				"athena:ListTableMetadata",
				"athena:StartQueryExecution",
				"athena:GetQueryExecution",
				"athena:RunQuery",
				"athena:StartSession",
				"athena:GetQueryResults",
				"athena:ListWorkGroups",
				"s3:ListMultipartUploadParts",
				"s3:ListBucket",
				"s3:GetBucketLocation",
				"athena:GetDataCatalog",
				"s3:AbortMultipartUpload",
				"s3:GetObject",
				"s3:PutObject",
				"athena:GetWorkGroup"
			],
			"Resource": [
				"arn:aws:s3:::*"
			]
		},
		{
			"Sid": "GetGlueConnectionsAndSecrets",
			"Effect": "Allow",
			"Action": [
				"glue:GetConnections",
				"glue:GetConnection"
			],
			"Resource": [
				"*"
			]
		}
	]
}

前往 IAM 控制台：https://console.aws.amazon.com/iam/，然后在左侧菜单中选择角色。
按角色名称搜索您的角色。

注意
您可以通过在 '/' 上分割 ARN 并提取最后一个元素，从其 Amazon 资源名称（ARN）中检索执行角色名称。例如，在下面的 ARN arn:aws:iam::112233445566:role/SageMakerStudio-SQLExtension-ExecutionRole 示例中，执行角色的名称是 SageMakerStudio-SQLExtension-ExecutionRole。
请点击您的角色链接。
在权限选项卡中，选择添加权限，然后选择创建内联策略。
在策略编辑器部分选择 JSON 格式。
复制上述策略，然后选择下一步。确保已将所有 account-id、region-name 和 db-name 替换为其值。
输入策略名称，然后选择创建策略。

步骤 3：在中启用 Athena 默认连接 JupyterLab

在以下步骤中，您可以在 JupyterLab 应用程序default-athena-connection中启用。默认的 Athena 连接允许直接 JupyterLab从 Athena 中运行 SQL 查询，而无需手动创建连接。

启用默认 Athena 连接

前往 SageMaker AI 控制台，https://console.aws.amazon.com/sagemaker/然后在左侧菜单中选择 Studio。使用域和用户配置文件启动 Studio。
选择 JupyterLab 应用程序。
如果您尚未为 JupyterLab 应用程序创建空间，请选择创建 JupyterLab 空间。输入空间名称，将空间保留为私有，然后选择创建空间。使用最新版本的 SageMaker AI Distribution 映像来管理您的空间。

否则，请选择在空间上运行空间以启动 JupyterLab 应用程序。
启用 Athena 默认连接：
1. 在 JupyterLab 应用程序中，导航到顶部导航栏的 “设置” 菜单，然后打开 “设置编辑器” 菜单。
2. 选择数据发现。
3. 选中启用默认 Athena 连接。
4. 在您的 JupyterLab 应用程序中，选择左侧导航窗格中的 SQL 扩展程序图标 ( ) 以打开 SQL 扩展。
5. 选择数据发现面板底部的刷新按钮。您应该会在连接列表中看到一个 default-athena-connection。

步骤 4：使用 SQL 扩展程序从 JupyterLab 笔记本中查询 Amazon S3 中的数据

您已准备好在 JupyterLab 笔记本中使用 SQL 查询数据。

打开连接default-athena-connection，然后Amazon DataCatalog。
导航至数据库，选择右侧的三点图标 ( )。选择在笔记本中查询。

这会自动在笔记本单元格中 JupyterLab 填充相关的%%sm_sql魔法命令以连接到数据源。它还添加了一个 SQL 语句示例，帮助您立即开始查询。

注意
确保在运行 SQL 查询之前在顶部单元格中加载扩展名。

您可以使用扩展的自动完成和高亮功能进一步完善 SQL 查询。有关使用 SQL 扩展 SQL 编辑器的更多信息，请参阅 SQL 扩展模块的 JupyterLab SQL 编辑器功能。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

在 Studio 中使用 SQL 准备数据

功能概述和使用方法