本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 将亚马逊 A SageMaker I 模型与 Amazon Quick Sight 集成
集成 SageMaker AI 模型

**注意**  
您无需任何机器学习 (ML) 方面的技术经验即可使用 Amazon Quick Sight 中基于机器学习的功能编写分析和仪表板。

您可以使用亚马逊 A SageMaker I 机器学习模型扩充您的 Amazon Quick Enterprise 版数据。您可以对存储在从 Quick 支持的任何数据源SPICE导入的数据进行推断。有关支持的数据来源的完整列表，请参阅[支持的数据来源](supported-data-sources.md)。

将 Quick 与 SageMaker AI 模型配合使用可以节省在管理数据移动和编写代码上的时间。这些结果可用于评估模型，也可在您对结果感到满意时共享给决策者。您可以在构建模型后立即开始使用。这样做会显示数据科学家的预构建模型，并使您能够将数据科学应用于数据集。然后，您可以在预测控制面板中共享这些见解。使用 Quick 无服务器方法，流程可以无缝扩展，因此您无需担心推理或查询容量。

Amazon Quick 支持使用回归和分类算法 SageMaker 的人工智能模型。可以应用此功能来获取几乎任何业务用例的预测结果。一些示例包括预测客户流失的可能性、员工流失、对销售线索进行评分，以及评估信用风险。要使用 Quick 提供预测，输入和输出的 SageMaker AI 模型数据都必须采用表格格式。在多类别或多标签分类用例中，每个输出列必须包含单个值。Quick 不支持在一列中包含多个值。

**Topics**
+ [

## SageMaker AI 集成的工作原理
](#sagemaker-how-it-works)
+ [

## 产生的费用（集成本身无额外费用）
](#sagemaker-cost-of-use)
+ [

## 使用指南
](#sagemaker-usage-guidelines)
+ [

## 定义架构文件
](#sagemaker-schema-file)
+ [

## 向 Quick Sight 数据集添加 SageMaker AI 模型
](#sagemaker-using)
+ [

# 使用 SageMaker AI Canvas 构建预测模型
](sagemaker-canvas-integration.md)

## SageMaker AI 集成的工作原理


 一般来说，该过程的工作方式如下所示：

1. Amazon Quick 管理员添加了 Quick 访问 SageMaker 人工智能的权限。为此，请从 “**管理快速**” 页面中打开 “**安全与权限**” 设置。转到**快速访问 Amazon 服务**，然后添加 SageMaker AI。

   当您添加这些权限时，Quick 会被添加到 Amazon Identity and Access Management (IAM) 角色中，该角色提供列出您 Amazon 账户中所有 SageMaker AI 模型的访问权限。它还提供运行名称前缀为的 SageMaker AI 作业的`quicksight-auto-generated-`权限。

1. 我们建议您连接到具有推理管道的 SageMaker AI 模型，因为它会自动执行数据预处理。有关更多信息，请参阅 *SageMaker AI 开发人员指南*中的[部署推理管道](https://docs.amazonaws.cn/sagemaker/latest/dg/inference-pipelines.html)。

1. 确定要结合使用的数据和预训练模型后，模型的拥有者将创建并提供一个架构文件。这个 JSON 文件是与 SageMaker AI 签订的合同。提供了有关模型所需的字段、数据类型、列顺序、输出和设置的元数据。可选设置组件提供了要用于该作业的计算实例的实例大小和数量。

   如果您是构建该模型的数据科学家，请使用以下所述格式创建此架构文件。如果您是该模型的使用者，请从模型拥有者处获取此架构文件。

1. 在 Quick 中，首先要创建一个包含要进行预测的数据的新数据集。如果您要上传文件，则可以在上传设置屏幕上添加 SageMaker AI 模型。否则，在数据准备页面上添加该模型。

   继续操作之前，请验证数据集与模型之间的映射。

1. 将数据导入数据集后，输出字段包含从 SageMaker AI 返回的数据。您可以按照您使用其他字段的方式使用这些字段（[使用指南](#sagemaker-usage-guidelines)中所述的准则）。

   运行 SageMaker AI 集成时，Quick 会向 A SageMaker I 传递请求，要求其使用推理管道运行批量转换作业。快速入门：在您的 Amazon 账户中配置和部署所需的实例。处理完成后，将关闭并终止这些实例。计算容量仅在处理模型时产生费用。

   为了便于您识别它们，Quick 用前缀命名其所有 SageMaker AI 作业`quicksight-auto-generated-`。

1. 推理的输出存储在 SPICE 中并附加到数据集。推理完成后，您可以使用该数据集创建使用预测数据的可视化效果和控制面板。

1. 每次保存数据集时都会启动数据刷新。您可以通过刷新 SPICE 数据集手动启动数据刷新过程，也可以将其安排为定期运行。在每次数据刷新期间，系统都会自动调用 SageMaker AI 批量转换，以使用新数据更新输出字段。

   您可以使用 Amazon Quick Sight SPICE 摄取 API 操作来控制数据刷新过程。有关使用这些 API 操作的更多信息，请参阅 [Amazon Quick Sight API 参考](https://docs.amazonaws.cn/quicksight/latest/APIReference/qs-api-overview.html)。

## 产生的费用（集成本身无额外费用）


使用此功能本身不需要额外费用。您的费用包括以下内容：
+ 通过 SageMaker AI 部署模型的成本，只有在模型运行时才会产生。在创建或编辑数据集之后，保存数据集或刷新其数据将启动数据摄取过程。如果数据集包含推断字段，则此过程包括调用 SageMaker AI。费用是在您的 Quick 订阅所在的同一个 Amazon 账户中产生的。
+ 您的快速订阅费用如下：
  + 在 Quick (SPICE) 中将数据存储在内存计算引擎中的成本。如果要将新数据添加到 SPICE，则可能需要购买足够的 SPICE 容量来容纳数据。
  + 为构建数据集的作者或管理员提供快速订阅。
  + Pay-per-session 查看者（读者）访问交互式仪表板的费用。

## 使用指南


在 Amazon Quick 中，以下使用指南适用于此企业版功能：
+ 模型的处理在 SPICE 中进行。因此，它只能应用于存储在 SPICE 中的数据集。该过程目前支持每个数据集最多 5 亿行。
+ 只有 Quick 管理员或作者才能使用机器学习模型扩充数据集。只有当结果在控制面板中显示时，读者才能查看。
+ 每个数据集能且只能与一个 ML 模型结合使用。
+ 输出字段不能用于计算新字段。
+ 无法按与该模型集成的字段筛选数据集。换句话说，如果您的数据集字段当前已映射到 ML 模型，则无法对该字段进行筛选。

在 SageMaker AI 中，以下使用指南适用于您在 Amazon Quick Sight 中使用的预训练模型：
+ 创建模型时，请将其与适当 IAM 角色的 Amazon 资源名称 (ARN) 关联。 SageMaker 人工智能模型的 IAM 角色需要有权访问 Amazon Quick Sight 使用的 Amazon S3 存储桶。
+ 确保您的模型同时对输入和输出支持 .csv 文件。确保您的数据采用表格格式。
+ 提供包含该模型元数据的架构文件，包括输入和输出字段的列表。目前，您必须手动创建此架构文件。
+ 考虑完成推理所需的时间，具体取决于许多因素。其中包括模型的复杂性、数据量和定义的计算容量。完成推理可能需要几分钟到几个小时的时间。Amazon Quick Sight 将所有数据摄取和推理任务的上限限制为 10 小时。要减少执行推断所需的时间，请考虑增加实例大小或实例数。
+ 目前，您只能使用批量转换与 SageMaker AI 集成，而不能使用实时数据。您不能使用 SageMaker AI 终端节点。

## 定义架构文件


在使用带有 Quick Sight 数据的 SageMaker AI 模型之前，请创建 JSON 架构文件，其中包含 Amazon Quick Sight 处理模型所需的元数据。Amazon Quick 作者或管理员在配置数据集时上传架构文件。

架构字段定义如下。除非以下描述中特别说明，否则所有字段均为必填字段。属性区分大小写。

 *inputContentType*   
此 SageMaker AI 模型期望输入数据的内容类型。对此唯一支持的值是 `"text/csv"`。Quick Sight 不包含您添加到输入文件中的任何标题名称。

 *outputContentType*   
您要使用的 SageMaker AI 模型生成的输出的内容类型。对此唯一支持的值是 `"text/csv"`。

 *input*   
模型所需的输入数据功能列表。Quick Sight 以完全相同的顺序生成输入数据。此列表包含以下属性：  
+  *name* – 列的名称。如果可能，请将其与 QuickSight 数据集中相应列的名称相同。此属性不得超过 100 个字符。
+  *type* – 此列的数据类型。此属性采用 `"INTEGER"`、`"STRING"` 和 `"DECIMAL"` 值。
+  *nullable* –（可选）字段是否可为 null 值。默认值为 `true`。如果设置`nullable`为`false`，Quick Sight 将在调用 SageMaker AI 之前删除不包含此值的行。这样做有助于避免导致 SageMaker AI 因缺少所需数据而失败。

 *output*   
 SageMaker AI 模型生成的输出列列表。Quick Sight 期望这些字段的顺序完全相同。此列表包含以下属性：  
+  *名称* — 此名称将成为在 Quick Sight 中创建的相应新列的默认名称。您可以在 Quick Sight 中覆盖此处指定的名称。此属性不得超过 100 个字符。
+  *type* – 此列的数据类型。此属性采用 `"INTEGER"`、`"STRING"` 和 `"DECIMAL"` 值。

 *instanceTypes*   
 SageMaker AI 可以预置以运行转换作业的 ML 实例类型列表。该列表提供给 Amazon Quick 用户供其选择。此列表仅限于 SageMaker AI 支持的类型。有关支持的类型的更多信息，请参阅 *SageMaker AI 开发者指南[TransformResources](https://docs.amazonaws.cn/sagemaker/latest/dg/API_TransformResources.html)中的。*

 *defaultInstanceType*   
（可选）在 Quick Sight 的 SageMaker AI 向导中作为默认选项显示的实例类型。请将此实例类型包含在 `instanceTypes` 中。

 *instanceCount*   
（可选）实例计数定义了要让 SageMaker AI 配置多少选定实例来运行转换作业。此值必须为正整数。

 *描述*   
该字段为拥有 SageMaker AI 模型的人提供了一个与在 Quick Sight 中使用该模型的人进行通信的地方。使用此字段可提供有关成功使用此模型的提示。例如，此字段可以包含有关根据数据集的大小，从 `instanceTypes` 的列表选择有效实例类型的信息。此字段不得超过 1,000 个字符。

 *版本*   
架构的版本，例如“`1.0"`”。

以下示例显示了架构文件中 JSON 的结构。

```
{
        "inputContentType": "CSV",
        "outputContentType": "CSV",
        "input": [
            {
                "name": "buying",
                "type": "STRING"
            },
            {
                "name": "maint",
                "type": "STRING"
            },
            {
                "name": "doors",
                "type": "INTEGER"
            },
            {
                "name": "persons",
                "type": "INTEGER"
            },
            {
                "name": "lug_boot",
                "type": "STRING"
            },
            {
                "name": "safety",
                "type": "STRING"
            }
        ],
        "output": [
            {
                "name": "Acceptability",
                "type": "STRING"
            }
        ],
        "description": "Use ml.m4.xlarge instance for small datasets, and ml.m4.4xlarge for datasets over 10 GB",
        "version": "1.0",
        "instanceCount": 1,
        "instanceTypes": [
            "ml.m4.xlarge",
            "ml.m4.4xlarge"
        ],
        "defaultInstanceType": "ml.m4.xlarge"
    }
```

架构文件的结构与 SageMaker AI 提供的示例中使用的模型类型有关。

## 向 Quick Sight 数据集添加 SageMaker AI 模型


使用以下步骤，您可以向数据集添加预训练的 SageMaker AI 模型，以便可以在分析和仪表板中使用预测数据。

在开始之前，请准备以下项目：
+ 要用于构建数据集的数据。
+ 要用于扩充数据集的 SageMaker AI 模型的名称。
+ 模型的架构。此架构包括字段名称映射和数据类型。最好还能包含有关实例类型和要使用的实例数量的建议设置。

**使用 AI 扩充你的 Amazon Quick Sight SageMaker 数据集**

1. 通过选择**数据集**，然后选择**新建数据集**，从起始页创建新数据集。

   您也可以编辑现有的数据集。

1. 在数据准备屏幕 SageMaker上选择 **Augment** with。

1. 对于 **Select your model (选择您的模型)**，选择以下设置：
   + **模型**-选择用于推断字段的 SageMaker AI 模型。
   + **名称** – 为模型提供描述性名称。
   + **架构** – 上传为模型提供的 JSON 架构文件。
   + **高级设置**-根据您的数据集 QuickSight 推荐所选的默认设置。您可以使用特定的运行时设置来平衡作业的速度和成本。为此，请在 “实例类型” 中输入 SageMaker AI ML **实例类型**，在 “**计**数” 中输入 “实例数量”。

   选择**下一步**以继续。

1. 对于 **Review inputs (查看输入)**，请查看映射到数据集的字段。Quick Sight 会尝试自动将架构中的字段映射到数据集中的字段。如果映射需要调整，您可以在此处进行更改。

   选择**下一步**以继续。

1. 对于**查看输出**，请查看已添加到数据集的字段。

   选择 **Save and prepare data (保存并准备数据)** 以确认您的选择。

1. 要刷新数据，请选择数据集以查看详细信息。然后选择 **Refresh Now (立即刷新)** 手动刷新数据，或者选择 **Schedule refresh (计划刷新)** 以设置常规刷新间隔。在每次数据刷新期间，系统都会自动运行 SageMaker AI 批量转换作业，以使用新数据更新输出字段。

# 使用 SageMaker AI Canvas 构建预测模型
SageMaker AI 画布

Amazon Quick 作者可以将数据导出到 SageMaker AI Canvas 中，以构建可以发送回 Quick 的机器学习模型。作者可以通过预测分析使用这些 ML 模型来扩充其数据集，这些模型可用于构建分析和控制面板。

**先决条件**
+ 与 IAM 身份中心集成的快速账户。如果您的 Quick 账户未与 IAM Identity Center 集成，请创建一个新的 Quick 账户，然后选择**使用支持 IAM 身份中心的应用程序**作为身份提供商。
  + 有关 IAM Identity Center 的更多信息，请参阅 [Getting started](https://docs.amazonaws.cn/singlesignon/latest/userguide/getting-started.html)。
  + 要详细了解如何将 Quick 与 IAM 身份中心集成，请参阅[使用 IAM 身份中心配置您的 Amazon Quick 账户](setting-up-sso.md#sec-identity-management-identity-center)。
  + 要将资产从现有 Quick 账户导入到 IAM Identity Center 集成的新 Quick 账户，请参阅[资产捆绑包操作](https://docs.amazonaws.cn/quicksight/latest/developerguide/asset-bundle-ops.html)。
+ 与 I SageMaker AM 身份中心集成的新 AI 域。有关使用 IAM 身份中心登录 A SageMaker I 域的更多信息，请参阅[使用 IAM 身份中心登录 A SageMaker I 域](https://docs.amazonaws.cn/sagemaker/latest/dg/onboard-sso-users.html)。

**Topics**
+ [

## 在 Amazon Quick Sight 的 SageMaker AI Canvas 中构建预测模型
](#sagemaker-canvas-integration-create-model)
+ [

## 使用 SageMaker AI 画布模型创建数据集
](#sagemaker-canvas-integration-create-dataset)
+ [

## 注意事项
](#sagemaker-canvas-integration-considerations)

## 在 Amazon Quick Sight 的 SageMaker AI Canvas 中构建预测模型
构建预测模型

**在 SageMaker AI Canvas 中构建预测模型**

1. 登录 Amazon Quick 并导航到要为其创建预测模型的表格表或数据透视表。

1. 打开视觉对象菜单，然后选择**构建预测模型**。

1. 在出现的 “在 ** SageMaker AI Canvas 中构建预测模型**” 弹出窗口中，查看显示的信息，然后选择将**数据导出到 SAGEMAKER CANVAS**。

1. 在出现的 “导出” 窗格中，在导**出**完成**后选择 “前往 SAGEMAKER CAN** VAS”，进入 SageMaker AI Canvas 控制台。

1. 在 SageMaker AI Canvas 中，使用你从 Quick Sight 导出的数据创建预测模型。您可以参照指导教程来创建预测模型，也可以跳过教程，按照自己的节奏工作。有关在 SageMaker AI Canvas 中创建预测模型的更多信息，请参阅[构建模型](https://docs.amazonaws.cn/sagemaker/latest/dg/canvas-build-model-how-to.html#canvas-build-model-numeric-categorical)。

1. 将预测模型发送回 Quick Sight。有关将模型从 SageMaker AI Canvas 发送到 Amazon Quick Sight 的更多信息，请参阅[将您的模型发送到 Amazon Quick Sight](https://docs.amazonaws.cn/sagemaker/latest/dg/canvas-send-model-to-quicksight.html)。

## 使用 SageMaker AI 画布模型创建数据集
创建数据集

在 SageMaker AI Canvas 中创建预测模型并将其发送回 Quick Sight 后，使用新模型创建新数据集或将其应用于现有数据集。

**向数据集添加预测字段**

1. 打开 Quick 控制台，选择左侧**的数据**，然后选择**数据集**选项卡。

1. 上传一个新数据集或选择一个现有数据集。

1. 选择**编辑**。

1. 在数据集的数据准备页面上，选择 “添加”，然后选择 “**添加****预测字段**” 以打开 “**使用 SageMaker AI 增强**” 模式。

1. 对于**模型**，选择你从 SageMaker AI Canvas 发送到 Quick Sight 的模型。架构文件会**高级设置**窗格中自动填充。查看输入，然后选择**下一步**。

1. 在**查看输出**窗格上，输入您在 SageMaker AI Canvas 中创建的模型要定位的列的字段名称和描述。

1. 完成后，选择**准备数据**。

1. 选择**准备数据**后，系统会将您重定向到数据集页面。要发布新数据集，请选择**发布和可视化**。

当您发布使用 SageMaker AI Canvas 模型的新数据集时，数据将导入 SPICE，并在 SageMaker AI 中开始批量推理作业。完成该作业最长可能需要 10 分钟。

## 注意事项


以下限制适用于使用 Quick Sight 数据创建 SageMaker AI Canvas 模型。
+ 用于向 SageMaker AI Canvas 发送数据的 “**构建预测模型**” 选项仅适用于表格和表格数据透视表视觉对象。表格或数据透视表视觉对象必须包含 2 到 1,000 个字段且至少有 500 行。
+ 当您向数据集添加预测字段时，包含整数或地理数据类型的数据集将遇到架构映射错误。要解决此问题，请从数据集中移除整数或地理数据类型，或者将其转换为新的数据类型。