将亚马逊 SageMaker 模型与亚马逊集成 QuickSight - 亚马逊 QuickSight
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

重要:我们已经重新设计了 Amazon QuickSight 分析工作空间。您可能会遇到无法反映 QuickSight 控制台新外观的屏幕截图或程序化文本。我们正在更新屏幕截图和过程文本。

要查找特征或项目,请使用快速搜索栏

有关新外观 QuickSight的更多信息,请参阅在 Amazon 上引入全新的分析体验 QuickSight

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将亚马逊 SageMaker 模型与亚马逊集成 QuickSight

注意

您无需任何机器学习 (ML) 方面的技术经验即可使用 Amazon 中基于机器学习的功能编写分析和控制面板。 QuickSight

您可以使用亚马逊 SageMaker 机器学习模型来扩充您的亚马逊 QuickSight 企业版数据。您可以对存储在从 Amazon QuickSight 支持的任何数据源SPICE导入的数据进行推断。有关支持的数据源的完整列表,请参阅支持的数据来源

将 Amazon QuickSight 与 SageMaker 模型搭配使用可以节省管理数据移动和编写代码所花费的时间。这些结果可用于评估模型,也可在您对结果感到满意时共享给决策者。您可以在构建模型后立即开始使用。这样做会显示数据科学家的预构建模型,并使您能够将数据科学应用于数据集。然后,您可以在预测控制面板中共享这些见解。借助 Amazon QuickSight 无服务器方法,流程可以无缝扩展,因此您无需担心推理或查询容量。

Amazon QuickSight 支持使用回归和分类算法的 SageMaker 模型。可以应用此功能来获取几乎任何业务用例的预测结果。一些示例包括预测客户流失的可能性、员工流失、对销售线索进行评分,以及评估信用风险。要使用 Amazon QuickSight 提供预测,输入和输出的 SageMaker 模型数据都必须采用表格格式。在多类别或多标签分类用例中,每个输出列必须包含单个值。Amazon QuickSight 不支持在一列中包含多个值。

SageMaker 整合的工作原理

一般来说,该过程的工作方式如下所示:

  1. 亚马逊 QuickSight 管理员为亚马逊添加了 QuickSight 访问权限 SageMaker。为此,请从 “管理” QuickSight 页面打开 “安全和权限” 设置。转到 “QuickSight访问Amazon服务”,然后添加 SageMaker。

    当您添加这些权限时,Amazon 会 QuickSight 被添加到一个 Amazon Identity and Access Management (IAM) 角色中,该角色提供列出您Amazon账户中所有 SageMaker 模特的权限。它还提供运行名称前缀为的 SageMaker 作业的quicksight-auto-generated-权限。

  2. 我们建议您连接到具有推理管道的 SageMaker 模型,因为它会自动执行数据预处理。有关更多信息,请参阅《SageMaker 开发人员指南》中的部署推理管道

  3. 确定要结合使用的数据和预训练模型后,模型的拥有者将创建并提供一个架构文件。此 JSON 文件是与的合同 SageMaker。提供了有关模型所需的字段、数据类型、列顺序、输出和设置的元数据。可选设置组件提供了要用于该作业的计算实例的实例大小和数量。

    如果您是构建该模型的数据科学家,请使用以下所述格式创建此架构文件。如果您是该模型的使用者,请从模型拥有者处获取此架构文件。

  4. 在 Amazon 中 QuickSight,您首先要创建一个包含您想要预测的数据的新数据集。如果您正要上传文件,则可以在上传设置屏幕上添加 SageMaker 模型。否则,在数据准备页面上添加该模型。

    继续操作之前,请验证数据集与模型之间的映射。

  5. 将数据导入数据集后,输出字段将包含从中返回的数据 SageMaker。您可以按照您使用其他字段的方式使用这些字段(使用指南中所述的准则)。

    当您运行 SageMaker 集成时,Amazon QuickSight 会将请求传递 SageMaker 给使用推理管道运行批处理转换作业。Amazon QuickSight 开始在您的Amazon账户中配置和部署所需的实例。处理完成后,将关闭并终止这些实例。计算容量仅在处理模型时产生费用。

    为了便于您识别它们,Amazon 使用前缀 QuickSight 命名其所有 SageMaker 任务quicksight-auto-generated-

  6. 推理的输出存储在 SPICE 中并附加到数据集。推理完成后,您可以使用该数据集创建使用预测数据的可视化效果和控制面板。

  7. 每次保存数据集时都会启动数据刷新。您可以通过刷新 SPICE 数据集手动启动数据刷新过程,也可以将其安排为定期运行。在每次数据刷新期间,系统都会自动调用 SageMaker 批量转换,以使用新数据更新输出字段。

    您可以使用 Amazon QuickSight SPICE 提取 API 操作来控制数据刷新过程。有关使用这些 API 操作的更多信息,请参阅 Amazon QuickSight API 参考

产生的费用(集成本身无额外费用)

使用此功能本身不需要额外费用。您的费用包括以下内容:

  • 通过模型部署的成本 SageMaker,只有在模型运行时才会产生。在创建或编辑数据集之后,保存数据集或刷新其数据将启动数据摄取过程。 SageMaker 如果数据集有推断字段,则此过程包括调用。费用是在您的 QuickSight 订阅所在的同一个Amazon账户中产生的。

  • 您的 QuickSight 订阅费用如下:

    • 在 QuickSight (SPICE) 中将数据存储在内存计算引擎中的成本。如果要将新数据添加到 SPICE,则可能需要购买足够的 SPICE 容量来容纳数据。

    • QuickSight 为构建数据集的作者或管理员提供订阅。

    • P 向浏览者(读者)ay-per-session 收取访问交互式仪表板的费用。

使用指南

在 Amazon 中 QuickSight,以下使用指南适用于此企业版功能:

  • 模型的处理在 SPICE 中进行。因此,它只能应用于存储在 SPICE 中的数据集。该过程目前支持每个数据集最多 5 亿行。

  • 只有 QuickSight 管理员或作者才能使用机器学习模型扩充数据集。只有当结果在控制面板中显示时,读者才能查看。

  • 每个数据集能且只能与一个 ML 模型结合使用。

  • 输出字段不能用于计算新字段。

  • 无法按与该模型集成的字段筛选数据集。换句话说,如果您的数据集字段当前已映射到 ML 模型,则无法对该字段进行筛选。

在中 SageMaker,以下使用指南适用于您在 Amazon QuickSight 上使用的预训练模型:

  • 创建模型时,请将其与适当 IAM 角色的 Amazon 资源名称 (ARN) 关联。 SageMaker 模型的 IAM 角色需要有权访问亚马逊 QuickSight 使用的 Amazon S3 存储桶。

  • 确保您的模型同时对输入和输出支持 .csv 文件。确保您的数据采用表格格式。

  • 提供包含该模型元数据的架构文件,包括输入和输出字段的列表。目前,您必须手动创建此架构文件。

  • 考虑完成推理所需的时间,具体取决于许多因素。其中包括模型的复杂性、数据量和定义的计算容量。完成推理可能需要几分钟到几个小时的时间。Amazon QuickSight 将所有数据摄取和推理任务的上限限制为 10 小时。要减少执行推断所需的时间,请考虑增加实例大小或实例数。

  • 目前,您只能使用批量转换与实时数据集成 SageMaker,而不能使用实时数据集成。您不能使用 SageMaker 终端节点。

定义架构文件

在使用包含亚马逊 QuickSight 数据的 SageMaker 模型之前,请创建 JSON 架构文件,其中包含亚马逊处理该模型 QuickSight 所需的元数据。Amazon QuickSight 作者或管理员在配置数据集时上传架构文件。

架构字段定义如下。除非以下描述中特别说明,否则所有字段均为必填字段。属性区分大小写。

inputContentType

此 SageMaker 模型期望输入数据的内容类型。对此唯一支持的值是 "text/csv"。 QuickSight 不包括您添加到输入文件中的任何标题名称。

outputContentType

您要使用的 SageMaker 模型生成的输出的内容类型。对此唯一支持的值是 "text/csv"

input

模型所需的输入数据功能列表。 QuickSight 以完全相同的顺序生成输入数据。此列表包含以下属性:

  • name – 列的名称。如果可能,请将其与 QuickSight 数据集中相应列的名称相同。此属性不得超过 100 个字符。

  • type – 此列的数据类型。此属性采用 "INTEGER""STRING""DECIMAL" 值。

  • nullable –(可选)字段是否可为 null 值。默认值为 true。如果设置nullablefalse,则在调用之前 QuickSight 删除不包含此值的行 SageMaker。这样做有助于 SageMaker 避免因缺少所需数据而导致失败。

output

SageMaker 模型生成的输出列列表。 QuickSight期望这些字段的顺序完全相同。此列表包含以下属性:

  • 名称-此名称将成为中创建的相应新列的默认名称 QuickSight。您可以覆盖中此处指定的名称 QuickSight。此属性不得超过 100 个字符。

  • type – 此列的数据类型。此属性采用 "INTEGER""STRING""DECIMAL" 值。

instanceTypes

SageMaker 可以预配置以运行转换作业的 ML 实例类型列表。该列表提供给 QuickSight 用户供其选择。此列表仅限于支持的类型 SageMaker。有关支持的类型的更多信息,请参阅TransformResourcesSageMaker开发人员指南》。

defaultInstanceType

(可选)在 SageMaker 向导中作为默认选项显示的实例类型 QuickSight。请将此实例类型包含在 instanceTypes 中。

instanceCount

(可选)实例计数定义了 SageMaker 要配置多少选定实例以运行转换作业。此值必须为正整数。

描述

此字段为 SageMaker 模型所有者提供了一个与在中使用该模型的人进行通信的地方 QuickSight。使用此字段可提供有关成功使用此模型的提示。例如,此字段可以包含有关根据数据集的大小,从 instanceTypes 的列表选择有效实例类型的信息。此字段不得超过 1000 个字符。

version

架构的版本,例如“1.0"”。

以下示例显示了架构文件中 JSON 的结构。

{ "inputContentType": "CSV", "outputContentType": "CSV", "input": [ { "name": "buying", "type": "STRING" }, { "name": "maint", "type": "STRING" }, { "name": "doors", "type": "INTEGER" }, { "name": "persons", "type": "INTEGER" }, { "name": "lug_boot", "type": "STRING" }, { "name": "safety", "type": "STRING" } ], "output": [ { "name": "Acceptability", "type": "STRING" } ], "description": "Use ml.m4.xlarge instance for small datasets, and ml.m4.4xlarge for datasets over 10 GB", "version": "1.0", "instanceCount": 1, "instanceTypes": [ "ml.m4.xlarge", "ml.m4.4xlarge" ], "defaultInstanceType": "ml.m4.xlarge" }

架构文件的结构与提供的示例中使用的模型类型有关 SageMaker。

向 QuickSight 数据集添加 SageMaker 模型

使用以下步骤,您可以将预训练 SageMaker 模型添加到数据集中,以便可以在分析和仪表板中使用预测数据。

在开始之前,请准备以下项目:

  • 要用于构建数据集的数据。

  • 要用于扩充数据集的 SageMaker 模型的名称。

  • 模型的架构。此架构包括字段名称映射和数据类型。最好还能包含有关实例类型和要使用的实例数量的建议设置。

使用以下方法扩充您的 Amazon QuickSight 数据集 SageMaker
  1. 通过选择数据集,然后选择新建数据集,从起始页创建新数据集。

    您也可以编辑现有的数据集。

  2. 在数据准备屏幕 SageMaker上选择 Augment with。

  3. 对于 Select your model (选择您的模型),选择以下设置:

    • 模型-选择用于推断字段的 SageMaker 模型。

    • 名称 – 为模型提供描述性名称。

    • 架构 – 上传为模型提供的 JSON 架构文件。

    • 高级设置-根据您的数据集 QuickSight推荐所选的默认设置。您可以使用特定的运行时设置来平衡作业的速度和成本。为此,请在 “实例类型” 中输入 SageMaker ML 实例类型,在 “数” 中输入 “实例数量”。

    选择下一步以继续。

  4. 对于查看输入,请查看映射到您的数据集的字段。 QuickSight 尝试自动将架构中的字段映射到数据集中的字段。如果映射需要调整,您可以在此处进行更改。

    选择下一步以继续。

  5. 对于查看输出,请查看已添加到数据集的字段。

    选择 Save and prepare data (保存并准备数据) 以确认您的选择。

  6. 要刷新数据,请选择数据集以查看详细信息。然后选择 Refresh Now (立即刷新) 手动刷新数据,或者选择 Schedule refresh (计划刷新) 以设置常规刷新间隔。在每次数据刷新期间,系统都会自动运行 SageMaker 批量转换作业,以使用新数据更新输出字段。