使用 Amazon 中的现有数据集创建数据集 QuickSight - Amazon QuickSight
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon 中的现有数据集创建数据集 QuickSight

在 Amazon 中创建数据集后 QuickSight,您可以将其用作源来创建其他数据集。执行此操作时,将保留父数据集包含的所有数据准备,例如任何联接或计算字段。您可以为新子数据集中的数据添加额外的准备工作,例如加入新数据和筛选数据。您还可以为子数据集设置自己的数据刷新计划,并跟踪使用此数据集的控制面板和分析。

使用具有活动 RLS 规则的数据集作为源创建的子数据集将继承父数据集的 RLS 规则。使用较大的父数据集创建子数据集的用户只能看到他们在父数据集中有权访问的数据。然后,除了继承的 RLS 规则外,您还可以向新的子数据集添加更多 RLS 规则,以进一步管理谁可以访问新数据集中的数据。您只能使用直接查询中具有活动 RLS 规则的数据集创建子数据集。

根据现有数据集创建 QuickSight 数据集具有以下优点:

  • 集中管理数据集 – 数据工程师可以轻松扩展以满足组织内多个团队的需求。为此,他们可以开发和维护一些描述组织主要数据模型的通用数据集。

  • 减少数据源管理 — 业务分析师 (BA) 通常会花费大量时间和精力请求访问数据库、管理数据库凭据、查找正确的表以及管理 QuickSight 数据刷新计划。使用现有的数据集构建新数据集意味着 BA 不必从头开始使用数据库中的原始数据。他们可以使用精选数据。

  • 预定义的关键指标 – 通过使用现有的数据集创建数据集,数据工程师可以集中定义和维护公司众多组织的关键数据定义。例如销售增长和净边际收益。借助此功能,数据工程师还可以分发对这些定义的更改。这种方法意味着他们的业务分析师可以更快、更可靠地可视化正确数据。

  • 灵活地自定义数据 – 通过使用现有的数据集创建数据集,业务分析师可以更灵活地根据自己的业务需求自定义数据集。他们不必担心会中断其他团队的数据。

例如,假设您是由五名数据工程师组成的电子商务中心团队的一员。您和团队可以访问数据库中的销售、订单、取消和退货数据。您已通过架构连接其他 18 个维度表来创建 QuickSight 数据集。团队创建的关键指标是计算字段,即订单产品销售额(OPS)。它的定义是:OPS = 产品数量 x 价格。

团队为 8 个国家/地区的 10 个不同团队的 100 多位业务分析师提供服务。这些团队分别为优惠券团队、出站营销团队、移动平台团队和推荐团队。所有这些团队都以 OPS 指标为基础来分析自己的业务线。

您的团队无需手动创建和维护数百个未连接的数据集,而是重用数据集为整个组织的团队创建多个等级的数据集。这样做可以集中管理数据,并允许每个团队根据自己的需求自定义数据。同时,这会同步对数据的更新(例如指标定义更新),并维护行级和列级的安全性。例如,组织中的各个团队可以使用集中式数据集。然后,他们可以将这些数据集与特定于其团队的数据相结合,创建新的数据集并在此基础上构建分析。

除了使用关键的 OPS 指标外,组织中的其他团队还可以重用您创建的集中式数据集中的列元数据。例如,数据工程团队可以在集中式数据集中定义元数据,例如名称描述数据类型文件夹。所有后续团队都可以使用此数据集。

注意

Amazon QuickSight 支持使用单个数据集创建最多两个额外级别的数据集。

例如,您可以使用父数据集创建子数据集,然后创建孙子数据集,总共三个数据集等级。

使用现有的数据集创建数据集

使用以下过程通过现有的数据集创建数据集。

使用现有的数据集创建数据集
  1. 在起 QuickSight 始页面上,选择左侧窗格中的数据集

  2. 数据集页面中,选择要用于创建新数据集的数据集。

  3. 在为该数据集打开的页面上,选择在分析中使用的下拉菜单,然后选择在数据集中使用

    在数据集中使用。

    数据准备页面将打开并预加载父数据集中的所有内容,包括计算字段、联接和安全设置。

  4. 在打开的数据准备页面上,在左下角的查询模式中,选择您想要数据集从原始父数据集中提取更改和更新的方式。可以选择以下选项:

    • 直接查询 – 这是默认查询模式。如果选择此选项,则打开关联的数据集、分析或控制面板时,会自动刷新此数据集的数据。但是,以下限制适用:

      • 如果父数据集允许直接查询,则可以在子数据集中使用直接查询模式。

      • 如果联接中有多个父数据集,则只有当所有父数据集都来自同一个底层数据来源时,才可以为子数据集选择直接查询模式。例如,相同的 Amazon Redshift 连接。

      • 支持单个 SPICE 父数据集直接查询。不支持联接中的多个 SPICE 父数据集直接查询。

    • SPICE – 如果选择此选项,则可以为新数据集设置与父数据集同步的计划。有关为数据集创建 SPICE 刷新计划的更多信息,请参阅 刷新 SPICE 数据

  5. (可选)准备数据以供分析。有关数据准备的更多信息,请参阅 在 Amazon 中准备数据 QuickSight

  6. (可选)设置行级或列级安全性(RLS/CLS)以限制对数据集的访问。有关设置 RLS 的更多信息,请参阅 使用采用基于用户的规则的行级别安全性(RLS)限制对数据集的访问。有关设置 CLS 的更多信息,请参阅 使用列级别安全性(CLS)限制对数据集的访问

    注意

    您只能在子数据集上设置 RLS/CLS。不支持父数据集上的 RLS/CLS。

  7. 完成后,选择保存并发布以保存更改并发布新的子数据集。或者选择发布并可视化以发布新的子数据集并开始可视化数据。