Import - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Import

您可以使用 Amazon SageMaker er 数据牧师从以下数据源:Amazon Simple Storage Service (Amazon S3)、Amazon Amazon Athena、Amazon Redshift 和雪花。

某些数据源允许您添加多个数据连接

  • 您可以连接到多个 Amazon Redshift 集群。每个集群都会变成数据源。

  • 您可以查询帐户中的任何 Athena 数据库,以便从该数据库导入数据。

从数据源导入数据集时,该数据集将显示在数据流中。Data Wrangler 会自动推断数据集中每一列的数据类型。要修改这些类型,请选择数据类型步骤并选择编辑数据类型.

当您从 Athena 或 Amazon Redshift 导入数据时,导入的数据将自动存储在默认 SageMaker S3 存储桶中Amazon您正在使用 Studio 的区域。此外,Athena 会将您预览的数据存储在此存储桶中的数据 Wrangler 中。要了解更多信息,请参阅“导入数据存储”。

重要

默认 Amazon S3 存储桶不能具有最低限度的安全设置,如存储桶策略和服务器端加密 (SSE)。强烈建议您添加存储桶策略以限制对导入到数据工作者的数据集的访问.

重要

此外,如果您使用 SageMaker 的托管策略,我们强烈建议您将其范围缩小到允许您执行使用案例的最受限制的策略。有关更多信息,请参阅 。授予 IAM 角色使用数据工作者的权限.

从 Amazon S3 导入数据

Amazon Simple Storage Service (Amazon S3) 可使用 Amazon Simple Storage Service 随时在 Web 上的任何位置存储和检索任意数量的数据。您可以使用Amazon Web Services Management Console(这是一个简单直观的 Web 界面)和 Amazon S3 API。如果您的数据集存储在本地,我们建议您将其添加到 S3 存储桶中,以便导入到 Data Wrangler 中。要了解如何操作,请参阅将对象上传到存储桶,请参阅 Amazon Simple Storage Service 用户指南。

数据牧人使用S3 Select,以允许您在数据工作者中预览 Amazon S3 文件。您需要为每个文件预览支付标准费用。要了解有关定价的更多信息,请参阅请求和数据检索选项卡Amazon S3 定价.

重要

如果您计划导出数据流并启动 Data Wrangler 作业、将数据引入 SageMaker feature store 或创建 SageMaker 管道,请注意,这些集成要求 Amazon S3 输入数据位于同一Amazon区域。

您可以浏览Amazon帐户,并使用数据牧师中的 Amazon S3 导入导入 CSV 和镶木地板文件。

选择要导入的数据集时,可以重命名该数据集,指定文件类型,并将第一行标识为标题。

重要

如果要导入 CSV 文件,请确保其符合以下要求:

  • 数据集中的记录不能超过一行。

  • 一个反斜杠\是唯一有效的转义字符。

  • 您的数据集必须使用以下分隔符之一:

    • 逗号 —,

    • 冒号 —:

    • 分号 —;

    • 管道 —|

    • 选项卡 —[TAB]

为了节省空间,您可以导入压缩的 CSV 文件。

要从 Amazon S3 将数据集导入数据工作者,请执行以下操作:

  1. 如果您当前不在导入选项卡上,选择导入.

  2. INDER数据准备中,选择Amazon S3以查看导入 S3 数据源视图。

  3. 从可用 S3 存储桶的表中,选择存储桶并导航到要导入的数据集。

  4. 选择要导入的文件。您可以导入 CSV 和镶木地板文件。如果数据集没有 .csv 或 .镶木扩展名,请从文件类型下拉列表。

  5. 如果 CSV 文件有标头,请选中将标头添加到表.

  6. 使用预览表以预览数据集。此表格最多显示 100 行。

  7. 详细信息窗格中,验证或更改名称文件类型,表示您的数据集。如果您添加名称,则在导入数据集时,这些空格将被下划线替换。

  8. 启用采样默认处于选中状态。如果不取消选中此复选框,Data Wrangler 将采样并导入最多 100 MB 的数据。要禁用采样,请取消选中此复选框。

  9. 选择导入.

从 Athena 导入数据

Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 直接在 Amazon S3 中轻松分析数据。通过在Amazon Web Services Management Console,您可以将 Athena 指向 Amazon S3 中存储的数据,并开始使用标准 SQL 运行临时查询,然后在几秒钟内获得结果。要了解更多信息,请参阅什么是 Amazon Athena?

您可以查询 Athena 数据库并导入数据牧师中的结果。要使用此导入选项,您必须在 Athena 中创建一个数据库。要了解如何操作,请参阅开始使用

请注意有关 Athena 导入选项的以下内容:数据 Wrangler 中的信息:

  • 数据牧师支持使用 Athena 主工作组。不支持其他工作组。

  • 数据工作者不支持联合查询。

数据 Wrangler 使用同一AmazonStudio 实例所在的区域,用于存储 Athena 查询结果。当您从 Athena 导入时,数据牧羊人会在您的 Athena 帐户中创建一个名为sagemaker_data_wrangler如果尚不存在。它在此数据库中创建临时表以将查询输出移动到此 S3 存储桶。它会在导入数据后删除这些表;但是数据库sagemaker_data_wrangler,仍然存在。要了解更多信息,请参阅“导入数据存储”。

如果您将Amazon Lake Formation,请确保您的 Lake Formation IAM 权限不会覆盖数据库的 IAM 权限sagemaker_data_wrangler.

要从 Athena 将数据集导入数据工作者,请执行以下操作:

  1. 在导入屏幕上,选择Amazon Athena.

  2. 适用于目录中,选择AWSDatalog.

  3. 使用数据库下拉列表选择要查询的数据库。选择数据库时,可以使用下列出的详细信息.

  4. 在代码框中输入查询。

  5. INDERAdvanced Manager启用采样默认处于选中状态。如果不取消选中此复选框,则 Data Wrangler 会采样并导入大约 50% 的查询数据。取消选中此复选框以禁用采样。

  6. 在查询编辑器中输入您的查询并使用运行按钮运行查询。查询成功后,您可以在编辑器下预览结果。

  7. 要导入查询结果,请选择导入.

  8. 输入数据集名称. 如果您添加数据集名称,则在导入数据集时,这些空格将被下划线替换。

  9. SelectAdd.

从 Amazon Redshift 导入数据

Amazon Redshift 是一种完全托管的 PB 级云中数据仓库服务。创建数据仓库的第一步是启动一组节点(称为 Amazon Redshift 集群)。预置集群后,您可以上传数据集,然后执行数据分析查询。

您可以在数据工作者中连接并查询一个或多个 Amazon Redshift 集群。要使用此导入选项,您必须在 Amazon Redshift 中创建至少一个集群。要了解如何操作,请参阅Amazon Redshift 入门.

数据 Wrangler 使用同一Amazon您的 Studio 实例所在的区域,用于存储 Amazon Redshift 查询结果。要了解更多信息,请参阅“导入数据存储”。

如果您使用 IAM 托管策略,AmazonSageMakerFullAccess,以授予角色在 Studio 中使用数据工作者的权限,您的数据库用户名称必须具有前缀sagemaker_access.

可以使用以下过程了解如何添加新集群。

注意

数据管理员将 Amazon Redshift 数据 API 与临时凭证。要了解有关此 API 的更多信息,请参阅使用 Amazon Redshift 数据 API(Amazon Redshift 集群管理指南)中的。

要连接到 Amazon Redshift 集群,请执行以下操作:

  1. 选择 Import

  2. 选择+INDER添加数据连接.

  3. 选择Amazon Redshift.

  4. 选择临时证书 (IAM)对于 来说为类型.

  5. 输入连接名称. 这是 Data Wrangler 用于标识此连接的名称。

  6. 输入Cluster Identifier以指定要连接到哪个集群。注意:仅输入集群标识符,而不是 Amazon Redshift 集群的完整端点。

  7. 输入Database Name要连接到的数据库的。

  8. 输入数据库用户以标识要用于连接数据库的用户。

  9. 适用于卸载 IAM 角色中,输入 Amazon Redshift 集群应担任的角色的 IAM 角色 ARN,以便将数据移动到 Amazon S3 并向其写入数据。有关该角色的更多信息,请参阅。授权 Amazon Redshift 访问其他Amazon代表您的服务(Amazon Redshift 集群管理指南)中的。

  10. 选择连接

成功建立连接后,它将显示为导入数据. 选择此数据源可查询数据库并导入数据。

要从 Redshift 查询和导入数据,请执行以下操作:

  1. 选择要从中查询的连接数据源.

  2. Select架构. 要了解有关 Redshift 架构的更多信息,请参阅Schemas(Amazon Redshift 数据库开发人员指南)中的。

  3. INDERAdvanced Manager启用采样默认处于选中状态。如果不取消选中此复选框,则 Data Wrangler 会采样并导入大约 50% 的查询数据。取消选中此复选框以禁用采样。

  4. 在查询编辑器中输入您的查询并使用运行按钮运行查询。查询成功后,您可以在编辑器下预览结果。

  5. Select导入导入已查询的数据集。

  6. 输入数据集名称. 如果您添加数据集名称,则在导入数据集时,这些空格将被下划线替换。

  7. SelectAdd.

从 Snowflake 导入数据

您可以在 SageMaker 数据牧羊人中使用雪花作为数据源,以便为机器学习准备雪花中的数据。

借助雪花作为数据牧羊人中的数据源,您可以快速轻松地连接到 Snowflake,而无需编写一行代码。此外,您还可以将 Snowflake 中的数据与存储在 Amazon S3 中的数据以及通过 Amazon Athena 和 Amazon Redshift 查询的数据加入到雪花中,以便为机器学习准备数据。

连接后,您可以以交互方式查询 Snowflake 中存储的数据,通过 300 多个预配置的数据转换轻松转换数据,通过一组强大的预配置可视化模板了解数据并识别潜在错误和极值,并快速识别数据中的不一致性准备工作流程以及在将模型部署到生产中之前诊断问题。最后,您可以将数据准备工作流导出到 Amazon S3,以便与 SageMaker 自动导航仪、亚马逊功能商店和 SageMaker 管道等其他 SageMaker 功能一起使用。

管理员指南

重要

要了解有关精细访问控制和最佳实践的更多信息,请参阅安全访问控制.

本部分适用于从 SageMaker 数据牧羊人中设置对雪花的访问权限的雪花管理员。

重要

您的管理员负责管理和监控 Snowflake 中的访问控制。这包括用户可以访问的数据、用户可以使用的存储集成以及用户可以运行的查询。数据牧羊人不会添加相对于雪花的访问控制层。

重要

请注意,授予监视器权限可使用户能够查看对象内的详细信息,例如查询、仓库内的使用情况。

使用数据牧羊人配置雪花

要从雪花导入数据,雪花管理员需要通过 Amazon S3 配置数据牧羊人的访问权限。

此功能目前在选择加入区域不可用。

为此,请按照以下步骤操作。

  1. 配置 S3 存储桶的访问权限。

    Amazon访问控制要求

    Snowflake 需要对 S3 存储桶和目录具有以下权限才能访问目录中的文件。

    • s3:GetObject

    • s3:GetObjectVersion

    • s3:ListBucket

    创建一个 IAM 策略

    下面介绍了如何在Amazon管理控制台,以便您可以使用 Amazon S3 存储桶加载和卸载数据:

    • 登录到AmazonManagement Console。

    • 从主页面板中,选择 Identity and Access Management (IAM):

    • 选择策略从左侧导航面板。

    • 选择创建策略

    • 选择 JSON 选项卡。

    • 添加允许 Snowflake 访问 S3 存储桶和目录的策略文档。

      以下策略(JSON 格式)为 Snowflake 提供了使用单个存储桶和目录路径加载和卸载数据所需的权限。注意:请确保替换bucketprefix替换为您的实际存储桶名称和目录路径前缀。

      # Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }
    • 选择按钮后续:标签

    • 选择按钮后续:审核

      输入策略名称(例如snowflake_access和可选的描述。选择创建策略

  2. 中创建 IAM 角色Amazon.

  3. 在雪花中创建云存储集成.

  4. 检索Amazon适用于您的雪花账户的 IAM 用户.

  5. 授予 IAM 用户访问存储桶的权限.

  6. 授予数据科学家对存储集成的 Snowflake 角色使用权限。

    • 在雪花控制台中,运行GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;

      • integration_name是存储集成的名称。

      • snowflake_role是默认Snowflake给予数据科学家用户。

需要向数据科学家提供哪些信息

  1. 要允许数据科学家从 SageMaker 数据牧羊人访问雪花,请向他们提供以下之一:

    • 雪花帐户名称、用户名和密码。

    • 使用AmazonSecrets Manager并提供密钥的 ARN。如果您选择此选项,请使用以下步骤为 Snowflake 创建密钥。

      重要

      如果您的数据科学家使用雪花凭据(用户名和密码)选项连接到 Snowflake,请注意Secrets Manager用户可将凭证存储在密钥中,并将密钥作为最佳实践安全计划的一部分轮换。只有在设置 Studio 用户配置文件时配置的 Studio 角色,才能访问在 Secrets Manager 中创建的密钥。这将要求您添加此权限,secretsmanager:PutResourcePolicy添加到 Studio 角色附加到 Studio 角色的策略中。

      强烈建议您确定角色策略的范围,以便为不同的 Studio 用户组使用不同的角色。您可以为 Secrets Manager 密钥添加其他基于资源的权限。请参阅管理密钥策略查看您可以使用的条件键。

      • 如何创建雪花的 Amazon Secret.

        • 登录到AmazonSSecrets Manager 控制台.

        • 选择 Store a new secret (存储新密钥)

        • 选择密钥类型部分中,选择其他密类型

        • 以 Key (键) 和 Value (值) 对的形式指定自定义密钥的详细信息。键的名称区分大小写,因此username密钥必须是username,密码密钥必须是password,并且帐户 ID 密钥必须为accountid. 如果您输入的任何一个错误,Data Wrangler 将引发错误。引用usernamepassword, 和accountid如果使用密钥/值,则不需要。或者,您也可以选择明文选项卡,并在 JSON 中输入密钥值,如以下示例所示:

          { "username": "snowflake username", "password": "snowflake password", "accountid": "snowflake accountid" }
        • 选择下一步,然后在下面的屏幕上,将您的秘密名称加上AmazonSageMaker-. 此外,添加一个带有密钥 SageMaker(不带引号)和值的标签:true(不带引号)。其余字段是可选的。您可以滚动至页面底部并单击 Next (下一步)。屏幕的其余部分是可选的。选择 “下一步”,直到秘密已存储。

        • 选择密钥名称并保存密钥的 ARN。接下来,选择最终存储按钮。

        • 选择刚刚创建的密钥。

        • 您将在屏幕上看到您的 ARN。如果数据科学家使用 ARN 连接到雪花,请将 ARN 提供给他们。

  2. 您需要向数据科学家提供您在步骤 3 中创建的存储集成的名称:在雪花中创建云存储集成. 这是新集成的名称,称为integration_name中的CREATE INTEGRATION您运行的 SQL 命令如下所示:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

数据科学家指南

本节概述了如何从 SageMaker 数据牧羊人中访问您的雪花数据仓库,以及如何使用数据牧师功能。

重要

注意:您的管理员需要遵循上述设置的管理员指南,然后才能在 Snowflake 中使用数据牧师。

  1. 访问数据牧人

    要开始,请通过 Amazon SageMaker er 工作室访问数据牧羊人,方法是按照先决条件步骤。

    完成先决条件步骤后,您现在可以访问 Studio 中的数据牧师。

    • 在要用于启动 Studio 的用户旁边,选择打开 Studio.

    • 启动 Studio 后,选择File (文件)thenNewthen终端.

    • Entercat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"以打印 Studio 实例的版本。您必须具有 Studio 版本 1.3.0 才能启用雪花。

      • 如果您没有此版本,请更新您的 Studio 版本。若要执行此操作,请关闭 Studio 窗口并导航到SageMaker Studio 控制台.

      • 接下来,您将选择用于访问 Studio 的用户,然后选择删除应用程序. 删除完成后,再次启动 Studio,方法是选择打开 Studio.

      • 再次按照上述步骤 3 以验证 Studio 版本是 1.3.0。

  2. 从数据工作者中创建新的数据流

    从 Studio 中访问数据牧师并使用 1.3.0 版本后,选择+登录新的数据流卡在ML 任务和组件. 这会在 Studio 中创建一个新目录,其中包含一个 .flow 文件,其中包含您的数据流。.flow 文件将在工作室中自动打开。

    或者,您还可以通过选择File (文件),然后New,然后选择在顶部导航栏中。

    当您在 Studio 中创建一个新的 .flow 文件时,您可能会在 Data Wrangler 界面顶部看到一条消息,说明:

    连接到引擎

    正在建立与引擎的连接...

  3. Connect 到 Snowflake

    数据牧人内部有两种方式连接到雪花。您只需选择两种方式之一。

    1. 在数据牧师中指定您的雪花凭据(帐户名、用户名和密码)。

    2. 提供密钥的 Amazon 资源名称 (ARN)。

    重要

    如果您没有雪花凭据或 ARN,请联系您的管理员。您的管理员可以告诉您以前使用哪种 wo 方法连接到 Snowflake。

    启动导入数据屏幕,然后首先选择添加数据源,然后选择雪花。下面的屏幕截图说明了在哪里找到Snowflake选项。

选择身份验证方法。对于前面提到的此步骤,您可以使用 Snowflake 凭据或 ARN 名称。其中一个将是由您的管理员提供。

接下来我们解释这两种身份验证方法,并为每种方法提供屏幕截图。

  1. Snowflake 凭据选项.

    从身份验证方法下拉列表中选择基本(用户名和密码)选项。然后,在以下字段中输入您的凭据:

    • 存储集成:提供存储集成的名称。此信息由管理员提供。

    • 雪花账户名称:您的雪花帐户的全名。

    • 用户名:Snowflake 账户的用户名。

    • 密码:Snowflake 账户密码。

    • 连接名称:选择您选择的连接名称。

    SelectConnect (连接).

    以下是此屏幕的屏幕截图以及如何填写这些字段的示例。

  2. ARN 选项

    选择 “ARN” 选项下的身份验证方法下拉列表。然后,在 Secrets Manager ARN 下提供您的 ARN 名称以及您的管理员提供的存储集成。最后,创建一个连接名称,然后选择Connect (连接).

    以下是此屏幕的屏幕截图。

  3. 此时的工作流程是将您的 Snowflake 帐户连接到 Data Wrangler,然后对您的数据运行一些查询,然后最终使用 Data Wrangler 执行数据转换等。

    接下来的几个步骤将说明从 Data Wrangler 中导入和查询步骤。

    创建 Snowflake 连接后,您将进入从 Snowflake 导入数据屏幕。下面是这个屏幕截图。

    从这里,选择您的仓库。您还可以选择数据库和模式,在这种情况下,书面查询应指定它们。如果数据库架构,则写入的查询不需要指定数据库和模式名称。

    您的 Snowflake 帐户中的架构和表格将在左侧面板中列出。您可以选取和解开这些图元。选择特定表格时,请选择每个表格名称右侧的眼睛图标以预览表格。

    以下屏幕截图显示了包含数据仓库、数据库和架构的面板,以及可用于预览表的眼睛图标。一旦您选择预览表图标时,将生成该表的架构预览。您必须先选择一个仓库,然后才能预览表格。

    选择数据仓库、数据库和模式后,您现在可以编写查询并选择运行查询。查询的输出将显示在查询结果下。下面是这个屏幕截图。

    完成查询输出后,您可以将查询的输出导入到 Data Wrangler 流中以执行数据转换。

    若要执行此操作,请选择导入,然后指定一个名称并选择确定,如以下屏幕截图所示。

    从这里,过渡到数据流屏幕以准备数据转换,如以下屏幕截图所示。

数据牧师和雪花之间的私人连接通过Amazon PrivateLink

本部分说明如何使用Amazon PrivateLink在数据牧马和雪花之间建立私有连接。下面说明了这些步骤。

创建 VPC

如果您没有设置 VPC,则按照创建新 VPC说明创建一个。

选择了要用于建立私有连接的 VPC 后,请向 Snowflake 管理员提供以下凭据以启用Amazon PrivateLink:

  • VPC ID.

  • Amazon账户 ID。

  • 您用于访问雪花的相应帐户 URL。

重要

根据 Snowflake 的文档,启用您的雪花帐户最多可能需要两个工作日。

晚于Amazon PrivateLink处于启用状态,则检索Amazon PrivateLink配置,方法是在雪花工作表中执行以下命令。登录雪花控制台,在工作表下输入以下内容:select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. 检索以下内容的值:privatelink-account-nameprivatelink_ocsp-urlprivatelink-account-url, 和privatelink_ocsp-url从生成的 JSON 对象。每个值的示例如下。存储这些值以便将来使用。

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. 切换到Amazon控制台并导航到 VPC 菜单。

  3. 在左侧面板中,单击 “终端节点” 链接以导航到设置的 VPC 终端节点。

    一旦出现,单击创建终端节点按钮左上角。

  4. 选择 “按名称查找服务” 单选按钮。

  5. 在 “服务名称” 字段中,粘贴privatelink-vpce-id,然后选择Verify按钮。

    如果成功,屏幕上将显示带有 “找到服务名称” 的绿色警报,VPC 和子网选项将自动展开。下面是显示这一点的屏幕截图。注意:根据您的目标区域,您生成的屏幕可能会显示另一个Amazon区域名称。

  6. 从 VPC 下拉菜单中选择您发送到 Snowflake 的相同 VPC ID。

  7. 如果您尚未创建子网,请按照下一组有关如何执行此操作的说明进行操作。

  8. 从 VPC 下拉菜单中选择子网。然后选择 “创建子网”,然后按照提示在 VPC 中创建子集。确保您选择您发送雪花的 VPC ID。

  9. 向下滚动到 “安全组配置”,选择 “创建新安全组”。这将在新选项卡中打开默认的安全组屏幕。在此新选项卡中,选择右上角的创建安全组按钮。

  10. 提供一个新的安全组名称(例如,数据管理器-文档-雪花-专用链路-连接)和描述。请务必选择您在前面的步骤中使用的 VPC ID。

  11. 您现在需要添加两个规则,以允许从 VPC 内部到此 VPC 终端节点的流量。

    在单独的选项卡中导航到 VPC 下的 VPC,并检索 VPC 的 CIDR 块。然后在 “选择” 的 “入站规则” 部分中选择 “添加规则” 按钮HTTPS对于类型,请在表单中将源保留为自定义,粘贴从上述描述-vpcs 调用中检索的值(例如,10.0.0.0/16)。

  12. 选择右下角的 “创建安全组” 按钮。从新创建的安全组中检索安全组 ID(例如sg-xxxxxxxxxxxxxxxxx)。

  13. 在 VPC 终端节点配置屏幕中,删除默认安全组。在搜索字段中粘贴安全组 ID,然后选中该复选框。

  14. 向下滚动到页面底部,并选择 Create Endpoint (创建端点) 按钮。

  15. 成功后,您将导航到包含 VPC ID 指定的 VPC 终端节点配置链接的页面。选择链接以完整查看配置。

    检索 DNS 名称列表中最顶层的记录。这可以与其他 DNS 名称区分开来,因为它只包含区域名称(例如 us-west-2),并且没有可用区域字母表示法(例如 us-west-2a)。存储此信息以便将来使用。

本部分介绍如何在 VPC 中配置雪花端点的 DNS。这将允许您的 VPC 解决对雪花的请求Amazon PrivateLink终端节点。

  1. 导航到Route 53 菜单WITERAmazon控制台。

  2. 从左侧菜单(可能需要展开)中选择托管区域选项。

  3. 选择右上角的创建托管区域按钮。

    • 在域名表单字段中,引用存储的privatelink-account-url在上述步骤中。在此字段中,您的 Snowflake 账户 ID 将从 DNS 名称中删除,并且仅使用以区域标识符开头的值。稍后还将为子域创建一个资源记录集。例如,region.privatelink.snowflakecomputing.com.

    • 选择单选按钮私有托管区域在 “类型” 部分中。您的区域代码不能是 us-west-2。引用雪花返回给您的 DNS 名称。

    • 在要与托管区域关联的 VPC 部分中,选择 VPC 所在的区域以及前面步骤中使用的 VPC ID。

    • 选择右下角的 “已创建托管区域” 按钮

  4. 接下来我们将创建两个记录,一个用于私有链接帐户网址,另一个用于privatelink_ocsp-url.

    • 在 “托管区域” 菜单中,选择 “创建记录集” 按钮。

      1. 对于记录名称,请仅输入您的雪花帐户 ID(privatelink-account-url)。

      2. 对于记录类型,请选择别名记录。

      3. 对于值,请输入您在设置雪花的最后一步中检索到的区域 VPC 终端节点的 DNS 名称Amazon PrivateLink集成部分。

      4. 选择 Create Notebook 按钮。

      5. 对我们标记为 OCSP 记录重复上述步骤privatelink-ocsp-url,从 “ocsp” 开始,通过 8 个字符的雪花 ID 作为记录名称(例如ocsp.xxxxxxxx)。

本部分介绍如何为 VPC 配置 Route 53 解析程序的入站端点。

  1. 导航到Route 53 菜单WITERAmazon控制台。

    • 在 “安全” 部分的左侧面板中,选择 “安全组” 选项。

  2. 选择右上角的创建安全组按钮。

    • 为您的安全组提供一个名称(例如:数据访问者文档-路由 53 解析器-sg)和描述。

    • 选择前面步骤中使用的 VPC ID。

    • 在 VPC CIDR 块内创建允许通过 UDP 和 TCP 进行 DNS 的规则。

    • 选择创建安全组按钮。请注意安全组 ID,因为它现在将添加一个允许流量到 VPC 终端节点安全组的规则。

  3. 导航到Route 53 菜单WITERAmazon控制台。

    • 在解析程序部分的左侧面板中,选择入站终端节点选项。

  4. 选择创建入站终端节点按钮。

    • 提供一个终端节点名称。

    • 在 “区域” 下拉列表中,选择您在前面所有步骤中使用的 VPC ID。

    • 在 “安全组” 下拉列表中,从此部分的步骤 2 中选择安全组 ID。

    • 在 “IP 地址” 部分中,选择两个可用区域、子网,并保留使用自动选择的 IP 地址已选择。

    • 选择提交按钮。

  5. 在创建入站终端节点后选择该终端节点。

  6. 创建入站终端节点后,请记下解析程序的两个 IP 地址。

SageMaker VPC 终端节点

本部分介绍如何为以下内容创建 VPC 终端节点:SageMaker StudioSageMaker 笔记本电脑SageMaker APISageMaker 运行时SageMaker 功能恢复运行时.

创建一个将应用于所有终端节点的安全组。

  1. 导航到EC2 菜单中的Amazon控制台。

  2. 从左侧面板中,选择 “网络和安全” 部分的 “安全组” 选项。

  3. 选择右上角的创建安全组按钮。

  4. 为您的安全组提供名称和描述(例如datawrangler-doc-sagemaker-vpce-sg)。请注意,稍后将添加一个规则,以允许通过 HTTPS 从 SageMaker 到此组的流量。

创建终端节点。

  1. 导航到VPC 菜单中的Amazon控制台。

  2. 选择终端节点选项。

  3. 选择创建终端节点按钮。

  4. 在搜索栏中搜索服务(例如,在搜索栏中输入 “sagemaker”)。

  5. VPC下拉菜单中 VPC 选择您的雪花Amazon PrivateLink连接存在。

  6. Subnets部分中,选择可以访问雪花私有链接连接的子网。

  7. 离开启用 DNS 名称复选框。

  8. 个安全组部分中,选择您在上述部分中创建的安全组。

  9. 选择创建终端节点按钮。

配置 SageMaker 工作室和 SageMaker 数据牧羊人

本部分介绍如何配置 SageMaker Studio 和 SageMaker 数据牧师。

  1. 配置安全组

    • 导航到Amazon控制台。

    • 从左侧面板中,选择 “网络和安全” 部分的 “安全组” 选项。

    • 选择创建安全组按钮。

    • 为您的安全组提供名称和描述(例如datawrangler-doc-sagemaker-studio)。

    • 创建以下入站规则。

      • HTTPS 添加到您为雪花私有链接连接设置的安全组。

        • 正如在设置雪花私人链接集成步骤中创建的那样。

      • HTTP 连接到您为雪花私有链接连接设置的安全组。

        • 正如在设置雪花私人链接集成步骤中创建的那样。

      • 用于 DNS 的 UDP 和 TCP(端口 53)到 Route 53 解析程序入站终端节点安全组。

        • 正如在为您的 VPC 配置 Route 53 解析程序入站终端节点。.

    • 选择创建安全组按钮。

  2. 配置 SageMaker Studio

    • 导 SageMaker 到Amazon控制台。

    • 在左侧控制台中,选择SageMaker Studio选项。

    • 如果没有配置任何域,则会出现 “入门” 菜单。

    • 选择标准设置选项从 “开始” 菜单中选择。

    • 适用于身份验证方法中,SelectAmazonIdentity and Access Management (IAM)。

    • Permissions (权限)菜单中,您可以创建新角色或使用预先存在的角色,具体取决于您的使用案例。

      • 如果您选择创建新角色您可以选择提供 S3 存储桶名称,并为您生成策略。

      • 如果您已经创建了具有需要访问权限的 S3 存储桶权限的角色,请从下拉列表中选择该角色。此角色应具有AmazonSageMakerFullAccess附加到它的策略。

    • 选择网络和存储下拉列表来配置 SageMaker 将使用的 VPC、安全性和子网。

      • 适用于VPC选择您的雪花 PrivateLink 接连接所在的 VPC。

      • 适用于SUBSTRING选择可以访问雪花私有链接连接的子网。

      • 适用于Studio 的网络访问选择仅限 VPC。

      • 适用于安全组选择您之前在步骤 1 中创建的安全组。

    • 选择Submit按钮在右下角。

  3. 编辑 SageMaker 安全组。

    • 创建以下入站规则:

      • 端口 2049 到由 SageMaker 在步骤 2 中自动创建的入站和出站 NFS 安全组(安全组名称将包含 Studio 域 ID)。

      • 访问自身的所有 TCP 端口(仅适用于 VPC 的 SageMaker)。

  4. 编辑 VPC 终端节点安全组:

    • 导航到Amazon控制台。

    • 找到您之前创建的安全组。

    • 添加允许来自步骤 1 中创建的安全组的 HTTPS 流量的入站规则。

  5. 创建用户配置文件。

    • SageMaker Studio 控制面板选择添加用户按钮右上角。

    • 提供用户名称。

    • 对于执行角色中,选择创建新角色或使用预先存在的角色。

      • 如果您选择创建新角色您可以选择提供 Amazon S3 存储桶名称,并为您生成策略。

      • 如果您已经创建了一个角色,该角色具有您需要访问的 Amazon S3 存储桶的权限,请从下拉列表中选择该角色。此角色应具有AmazonSageMakerFullAccess附加到它的策略。

    • 选择Submit按钮。

  6. 创建数据流(遵循上述数据科学家指南)。

    • 添加雪花连接时,请输入privatelink-account-name(从步骤设置雪花 PrivateLink 集成)添加到雪花帐户名称(字母数字)字段中,而不是纯雪花帐户名称。其他一切都保持不变。

导入数据存储

重要

我们强烈建议您遵循有关保护 Amazon S3 存储桶的最佳实践,方法是:安全最佳实践.

当您从 Amazon Athena 或亚马 Amazon Redshift 查询数据时,查询的数据集会自动存储在 Amazon S3 中。数据存储在默认 SageMaker S3 存储桶中,用于Amazon您正在使用 Studio 的区域。

默认 S3 存储桶具有以下命名约定:sageMaker-区域-Account Number. 例如,如果您的帐户号码为 111122223333,并且您正在美国东部 1 中使用工作室,则导入的数据集将存储在描述制造商-美国东部 1-111122223333 中。

数据 Wrangler 流程取决于此 Amazon S3 数据集位置,因此在使用相关流时,您不应在 Amazon S3 中修改此数据集。如果修改了此 S3 位置,并且希望继续使用数据流,则必须删除trained_parameters在您的 .flow 文件中。若要执行此操作,请从 Studio 下载 .flow 文件,并为trained_parameters下,删除所有条目。操作完成后,trained_parameters应该是一个空的 JSON 对象:

"trained_parameters": {}

导出并使用数据流处理数据时,导出的 .flow 文件将引用 Amazon S3 中的此数据集。有关更多信息,请参阅以下部分。

Amazon Redshift 导入存储空间

数据工作者将查询结果的数据集存储在默认 SageMaker S3 存储桶中的镶木地板文件中。

此文件存储在以下前缀(目录)下:redshift/uuid/数据/,其中uuid是为每个查询创建的唯一标识符。

例如,如果您的默认存储桶为sagemaker-us-east-1-111122223333,从 Amazon Redshift 查询的单个数据集位于 S3: //sage制造商-美国东部 1-111122223333/红移/uuid/数据/.

Amazon Athena 进口仓储

查询 Athena 数据库并导入数据集时,Data Wrangler 会存储数据集以及该数据集的子集,或者预览文件,Amazon S3 中的。

导入的数据集,方法是选择导入存储在 Amazon S3 中。

预览文件将以 CSV 格式写入,当您选择运行,并且最多包含查询数据集中的 100 行。

您查询的数据集位于前缀(目录)下:雅典娜/uuid/数据/,其中uuid是为每个查询创建的唯一标识符。

例如,如果您的默认存储桶为sagemaker-us-east-1-111122223333,则从 Athena 查询的单个数据集位于s3://sagemaker-us-east-1-111122223333/redshift/uuid/数据/示例 _ 数据集。实木复合地板.

用于在 Data Wrangler 中预览数据框的数据集子集存储在前缀:雅典娜/下。