

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据准备体验（全新）


数据准备将原始数据转换为针对分析和可视化进行了优化的格式。在商业智能中，这一关键过程涉及清理、结构化和丰富数据，以获得有意义的业务见解。

Amazon Quick Sight 的数据准备界面通过直观的可视化体验彻底改变了这一流程，使用户无需使用 SQL 专业知识即可创建分析就绪的数据集。通过其现代、简化的方法，用户可以高效地创建和管理商业智能数据集。可视化界面提供了清晰、顺序的数据转换视图，使作者能够精确地跟踪从初始状态到最终输出的变化。

该平台强调协作和可重用性，使团队能够在整个组织中共享和重新调整工作流程。这种协作设计促进了数据转换实践的一致性，同时消除了多余的工作，最终促进了跨团队的标准化流程并提高了整体效率。

**Topics**
+ [

# 数据准备体验中的组成部分
](data-prep-components.md)
+ [

# 数据准备步骤
](data-prep-steps.md)
+ [

# 高级工作流程功能
](advanced-workflow-capabilities.md)
+ [

# 仅限香料的功能
](spice-only-features.md)
+ [

# 在数据准备体验之间切换
](switching-between-data-prep-experiences.md)
+ [

# 新的数据准备体验不支持的功能
](unsupported-features.md)
+ [

# 数据准备限制
](data-preparation-limits.md)
+ [

# 摄取行为发生变化
](ingestion-behavior-changes.md)
+ [

# 常见问题
](new-data-prep-faqs.md)

# 数据准备体验中的组成部分
组件

Amazon Quick Sight 的数据准备体验具有以下核心组成部分。

## 工作流


Quick Sight 的数据准备体验中的工作流程代表了一系列连续的数据转换步骤，这些步骤将引导您的数据集从原始状态转变为可用于分析的形式。这些工作流程专为可重复使用而设计，使分析师能够利用现有工作并在此基础上再接再厉，同时在整个组织中保持一致的数据转换标准。

虽然工作流可以容纳通过各种输入或通过 Divergence（将在后续章节中详细介绍）的多条路径，但它们最终必须汇聚到一个输出表中。这种统一的结构确保了数据的一致性和简化的分析能力。

## 转换


转换是一种特定的数据操作操作，它会更改数据的结构、格式或内容。Quick Sight 的数据准备体验提供各种转换类型，包括联接、筛选、聚合、透视、取消透视、追加和计算列。在重塑数据以满足分析要求方面，每种转换类型都有不同的用途。这些转换是作为工作流程中的单个步骤实施的。

## 步骤


步骤是指在工作流程中应用的相同类型的同质变换的集合。每个步骤都包含一个或多个相同转换类别的相关操作。例如，“重命名” 步骤可以包括多列重命名操作，而 “筛选” 步骤可以包含多个筛选条件，所有这些条件都作为工作流程中的一个单元进行管理。

大多数步骤可以包括多个操作，但有两个值得注意的例外：Join 和 Append 步骤仅限于每个步骤两个输入表。要联接或追加两个以上的表，可以按顺序创建其他 “连接” 或 “追加” 步骤。

步骤按顺序显示，每个步骤都建立在先前步骤的结果之上，允许您跟踪数据的渐进转换。要重命名或删除某个步骤，请选择该步骤并选择三点菜单。

## Connector


连接器通过指示工作流程方向的箭头将两个步骤连接起来。您可以通过选择连接器并按删除键来删除该连接器。要在两个现有步骤之间添加步骤，只需删除连接器，添加新步骤，然后通过在步骤之间拖动鼠标来重新连接这些步骤。

## 配置窗格


**配置窗格**是一个交互式区域，您可以在其中定义所选步骤的参数和设置。当您在工作流程中选择一个步骤时，此窗格会显示该特定转换类型的相关选项。例如，在配置 “联接” 步骤时，可以选择联接类型、匹配列和其他特定于联接的设置。“**配置” 窗格的** point-and-click界面无需了解 SQL 知识。

## 预览窗格


预**览窗格**显示应用当前转换步骤后显示的数据的实时样本。这种即时视觉反馈可帮助您在继续下一步之前验证每次转换是否都产生了预期的结果。当您修改步骤配置时，**预览窗格**会动态更新，从而可以放心地对数据转换进行迭代细化。

这些组件协同工作以创建直观、可视化的数据准备体验，使业务用户无需专业技术即可访问复杂的数据转换。

# 数据准备步骤


Amazon Quick Sight 的数据准备体验提供了 11 种强大的步骤类型，使您能够系统地转换数据。在数据准备工作流程中，每个步骤都有特定的用途。

可以通过 “配置” 窗格中的直观界面**配置**步骤，在 “**预览**” 窗格中可以看到即时反馈。可以按顺序组合步骤来创建复杂的数据转换，而无需 SQL 专业知识。

每个步骤都可以接收来自物理表的输入或上一步的输出。大多数步骤都接受单个输入，但 Append 和 Join 步骤除外，它们只需要两个输入。

## Input


“输入” 步骤允许您从多个来源选择和导入数据，以便在后续步骤中进行转换，从而在 Quick Sight 中启动数据准备工作流程。

**输入选项**
+ **添加数据集**

  利用现有的 Quick Sight 数据集作为输入源，在团队已经准备好和优化的数据基础上再接再厉。
+ **添加数据源**

  通过选择特定的数据库对象并提供连接参数，直接连接到 Amazon Redshift、Athena、RDS 等数据库或其他支持的来源。
+ **添加文件上传**

  以 CSV、TSV、Excel 或 JSON 等格式直接从本地文件导入数据。

**配置**

“输入” 步骤无需配置。**预览**窗格显示您导入的数据以及源信息，包括连接详细信息、表名和列元数据。

**使用说明**
+ 单个工作流程中可以存在多个输入步骤。
+ 您可以在工作流程中的任何时候添加输入步骤。

## 添加计算列


“添加计算列” 步骤允许您使用对现有列执行计算的行级表达式创建新列。您可以使用标量（行级）函数和运算符创建新列，也可以应用引用现有列的行级计算。

**配置**

要配置 “添加计算列” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 为您的新计算列命名。

1. [使用计算编辑器构建表达式，该编辑器支持行级函数和运算符（例如 [ifelse](ifelse-function.md) 和 round）。](round-function.md)

1. 保存您的计算结果。

1. 预览表达式结果。

1. 根据需要添加更多计算列。

**使用说明**
+ 此步骤仅支持标量（行级）计算。
+ 在 SPICE 中，计算的列是实现的，并在后续步骤中用作标准列。

## 更改数据类型


Quick Sight 通过支持四种抽象数据类型来简化数据类型管理：`date``decimal``integer`、、和`string`。这些抽象类型通过自动将各种源数据类型映射到其 Quick Sight 等效数据类型来消除复杂性。例如，、、`tinyint``smallint``integer`、和`bigint`都映射到`integer`、while `date`、`datetime`、和`timestamp`都映射到`date`。

这种抽象意味着您只需要了解 Quick Sight 的四种数据类型，因为在与不同的数据源交互时，Quick Sight 会自动处理所有底层数据类型的转换和计算。

**配置**

要配置 “更改数据类型” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择要转换的列。

1. 选择目标数据类型（`string`、`integer``decimal`、或`date`）。

1. 对于日期转换，请指定格式设置并根据输入格式预览结果。在 Quick Sight 中查看[支持的日期格式](supported-data-types-and-values.md)。

1. 根据需要添加其他列进行转换。

**使用说明**
+ 为了提高效率，只需一个步骤即可转换多列的数据类型。
+ 使用 SPICE 时，所有数据类型更改都将在导入的数据中实现。

## 重命名列


“重命名列” 步骤使您可以修改列名，使其更具描述性、用户友好性并与组织的命名惯例保持一致。

**配置**

要配置 “重命名列” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择要命名的列。

1. 为所选列输入新名称。

1. 根据需要添加更多要重命名的列。

**使用说明**
+ 所有列名在您的数据集中必须是唯一的。

## 选择列


“选择列” 步骤使您可以通过包含、排除列和重新排序列来简化数据集。这有助于通过删除不必要的列并按逻辑顺序组织剩余的列进行分析来优化数据结构。

**配置**

要配置 “选择列” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择要包含在输出中的特定列。

1. 按您的首选顺序选择列以建立顺序。

1. 使用 **“全选”** 可按其原始顺序包括其余列。

1. 取消选中不需要的列，将其排除在外。

**主要特点**
+ 输出列按选择顺序显示。
+ **“全选”** 将保留原始列顺序。

**使用说明**
+ 未选中的列将从后续步骤中删除。
+ 通过删除不必要的列来优化数据集大小。

## Append


追加步骤垂直合并两个表，类似于 SQL UNION ALL 操作。Quick Sight 会自动按名称而不是按顺序匹配列，即使表的列顺序不同或列数各不相同，也能实现高效的数据整合。

**配置**

要配置 “追加” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择两个要追加的输入表。

1. 查看输出列顺序。

1. 检查两个表中存在哪些列与单个表中存在哪些列。

**主要特征**
+ 按名称而不是按顺序匹配列。
+ 保留两个表中的所有行，包括重复行。
+ 支持具有不同列数的表。
+ 按照表 1 的列顺序进行匹配列，然后添加表 2 中的唯一列。
+ 显示所有列的清晰源指示符

**使用说明**
+ 追加具有不同名称的列时，请先使用 “重命名” 步骤。
+ 每个 Append 步骤恰好组合了两个表；使用附加步骤可以创建更多表。

## 联接


“联接” 步骤根据指定列中的匹配值水平合并来自两个表的数据。Quick Sight 支持 “左外”、“右外”、“全外” 和 “内连接” 类型，为您的分析需求提供了灵活的选项。该步骤包括智能列冲突解决方案，可自动处理重复的列名。虽然自联接不能作为特定的联接类型使用，但使用工作流程差异可以获得类似的结果。

**配置**

要配置 “加入” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择两个要连接的输入表。

1. 选择您的联接类型（左外、右外、全外或内部）。

1. 指定每个表中的联接键。

1. 查看自动解决的列名冲突。

**主要特征**
+ 支持多种联接类型，以满足不同的分析需求。
+ 自动解析重复的列名。
+ 接受计算列作为联接键。

**使用说明**
+ 联接键必须具有兼容的数据类型；如果需要，请使用 “更改数据类型” 步骤。
+ 每个 Join 步骤恰好组合两个表；使用其他 Join 步骤可以创建更多表。
+ 在 “加入” 之后创建 “重命名” 步骤，以自定义自动解析的列标题。

## 聚合


“聚合” 步骤允许您通过对列进行分组和应用聚合操作来汇总数据。这种强大的转换功能可根据您的指定维度将详细数据浓缩为有意义的摘要。Quick Sight 通过直观的界面简化了复杂的 SQL 操作，提供了全面的聚合功能，包括`ListAgg`和等高级字符串操作`ListAgg distinct`。

**配置**

要配置 “聚合” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择要作为分组依据的列。

1. 为度量列选择聚合函数。

1. 自定义输出列名称。

1. 针对 `ListAgg` 和 `ListAgg distinct`：

   1. 选择要聚合的列。

   1. 选择分隔符（逗号、短划线、分号或垂直线）。

1. 预览汇总数据。

**每种数据类型支持的函数**


| 数据类型 | 支持的函数 | 
| --- | --- | 
|  数值  |  `Average`, `Sum` `Count`, `Count Distinct` `Max`, `Min`  | 
|  日期  |  `Count`, `Count Distinct` `Max`, `Min` `ListAgg`，`ListAgg distinct`（仅限日期）  | 
|  字符串  |  `ListAgg`, `ListAgg distinct` `Count`, `Count Distinct` `Max`, `Min`  | 

**主要特征**
+ 对同一步骤中的列应用不同的聚合函数。
+ 不使用聚合函数@@ **的分组方式**充当 SQL SELECT DISTIN
+ `ListAgg`连接所有值；仅`ListAgg distinct`包括唯一值。
+ `ListAgg`默认情况下，函数保持升序排序顺序。

**使用说明**
+ 聚合可显著减少数据集中的行数。
+ `ListAgg`还有`ListAgg distinct`支持`date`价值观，但不是`datetime`。
+ 使用分隔符自定义字符串连接输出。

## 筛选条件


使用 “筛选” 步骤，您可以通过仅包括符合特定条件的行来缩小数据集的范围。您可以在一个步骤中应用多个筛选条件，所有这些条件都通过`AND`逻辑组合在一起，以帮助将分析重点放在相关数据上。

**配置**

要配置 “筛选器” 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择要筛选的列。

1. 选择比较运算符。

1. 根据列的数据类型指定筛选值。

1. 如果需要，可以在不同的列中添加其他筛选条件。

**注意**  
带有 “在” 或 “不在” 的字符串筛选器：输入多个值（每行一个）。
数字和日期筛选器：输入单个值（“介于” 除外，它需要两个值）。

**每种数据类型支持的运算符**


| 数据类型 | 支持的运算符 | 
| --- | --- | 
|  整数和十进制  |  等于，不等于 大于，小于 大于或等于，小于或等于 介于  | 
|  日期  |  之后，之前 介于 大于或等于、等于、等于或等于  | 
|  字符串  |  等于，不等于 开头为，结尾为 包含，不包含 在，不在  | 

**使用说明**
+ 在单个步骤中应用多个筛选条件。
+ 混合不同数据类型的条件。
+ 实时预览筛选结果。

## 转置


Pivot 步骤将行值转换为唯一的列，将数据从长格式转换为宽格式，以便于比较和分析。这种转换需要对值过滤、聚合和分组进行规范，以便有效地管理输出列。

**配置**

要配置 Pivot 步骤，请在 “**配置**” 窗格中使用以下内容：

1. **透视列**：选择其值将成为列标题的列（例如，类别）。

1. **透视列行值**：筛选要包含的特定值（例如，技术、办公用品）。

1. **输出列标题**：自定义新的列标题（默认为透视列值）。

1. **值列**：选择要汇总的列（例如，销售额）。

1. **聚合函数**：选择聚合方法（例如，Sum）。

1. **分组依**据：指定组织列（例如，区段）。

![\[alt text not found\]](http://docs.amazonaws.cn/quick/latest/userguide/images/pivot.png)


**每种数据类型支持的运算符**


| 数据类型 | 支持的运算符 | 
| --- | --- | 
|  整数和十进制  |  `Average`, `Sum` `Count`, `Count Distinct` `Max`, `Min`  | 
|  日期  |  `Count`, `Count Distinct` `Max`, `Min` `ListAgg`，`ListAgg distinct`（仅限日期值）  | 
|  字符串  |  `ListAgg`, `ListAgg distinct` `Count`, `Count Distinct` `Max`, `Min`  | 

**使用说明**
+ 每个转置的列都包含来自值列的聚合值。
+ 为清晰起见，自定义列标题。
+ 实时预览转换结果。

## 取消透视


Unpivot 步骤将列转换为行，将宽数据转换为更长、更窄的格式。这种转换有助于将分布在多列中的数据组织成更具结构性的格式，以便于分析和可视化。

**配置**

要配置 Unpivot 步骤，请在 “**配置**” 窗格中执行以下操作：

1. 选择要取消透视成行的列。

1. 定义输出列的行值。默认值为原始列名。一些例子包括技术、办公用品和家具。

1. 命名两个新的输出列。
   + **未转置的列标题**：以前的列名（例如，类别）的名称
   + **未旋转的列值**：未旋转值的名称（例如，Sales）

![\[alt text not found\]](http://docs.amazonaws.cn/quick/latest/userguide/images/unpivot.png)


**主要特征**
+ 在输出中保留所有未旋转的列。
+ 自动创建两个新列：一个用于以前的列名，另一个用于其对应的值。
+ 将宽数据转换为长格式。

**使用说明**
+ 所有未转置的列都必须具有兼容的数据类型。
+ 取消旋转后，行数通常会增加。
+ 在应用更改之前，请实时预览更改。

# 高级工作流程功能


Amazon Quick Sight 的数据准备体验提供了复杂的功能，可增强您创建复杂、可重复使用的数据转换的能力。本节介绍两项可扩展工作流程潜力的强大功能。

Divergence 使您能够从单个步骤创建多个转换路径，从而允许以后可以重新组合的并行处理流。此功能对于诸如自连接和并行转换之类的复杂场景特别有用。

复合数据集允许您使用现有数据集作为构建块来构建分层数据结构。此功能可促进团队之间的协作，并通过可重复使用的分层转换确保一致的业务逻辑。

这些功能共同提供灵活的工作流程设计、增强的团队协作和可重复使用的数据转换。它们可确保清晰的数据沿袭并支持可扩展的数据准备解决方案，使您的组织能够高效、清晰地处理日益复杂的数据场景。

## 分歧


Divergence 使您能够从工作流程中的单个步骤创建多个并行转换路径。这些路径可以独立转换，然后重新组合，从而实现复杂的数据准备方案，例如自联接。

**创建不同的路径**

要启动分歧，请在工作流程中执行以下操作：

1. 选择要在其中创建背离的步骤。

1. 选择出现的 **\$1** 图标。

1. 配置出现的新分支。

1. 对每条路径应用所需的变换。

1. 使用 Join 或 Append 步骤将路径重组为单个输出。

![\[alt text not found\]](http://docs.amazonaws.cn/quick/latest/userguide/images/divergence.png)


**主要特征**
+ 从一个步骤中创建多达五条发散路径。
+ 对每条路径应用不同的变换。
+ 使用 “连接” 或 “追加” 步骤重新组合路径。
+ 独立预览每条路径中的更改。

**最佳实践**
+ 使用差异来实现自联接。
+ 为并行转换创建数据副本。
+ 规划您的重组策略（加入或追加）。
+ 保持清晰的路径命名，以提高工作流程的可见性。

## 复合数据集


复合数据集使您能够在现有数据集的基础上进行构建，创建可在整个组织中共享和重复使用的分层数据转换结构。在 SPICE 和直接查询模式下，Quick Sight 支持多达 10 个级别的复合数据集。

**创建复合数据集**

要创建复合数据集，请在工作流程中执行以下操作：

1. 创建新数据集时选择 “输入” 步骤。

1. 在 “**添加数据” 下选择 “数据****集**” 作为来源。

1. 选择要构建的现有数据集。

1. 根据需要应用其他变换。

1. 另存为新数据集。

**主要特征**
+ 构建分层数据转换结构。
+ 支持多达 10 个级别的数据集嵌套。
+ 兼容 SPICE 和直接查询。
+ 保持清晰的数据沿袭。
+ 启用特定于团队的变换。

此功能增强了不同团队之间的协作。例如，


|  角色 | Action | Output | 
| --- | --- | --- | 
|  全球分析师  |  使用全球业务逻辑创建数据集  |  数据集 A  | 
|  美洲分析师  |  使用数据集 A，添加区域逻辑  |  数据集 B  | 
|  美西分析师  |  使用数据集 B，添加本地逻辑  |  数据集 C  | 

这种分层方法通过为转型层分配明确的所有权，在整个组织中促进业务逻辑的一致性。它创建了可追溯的数据谱系，同时支持多达 10 个级别的数据集嵌套，从而实现受控和系统的数据转换管理。

**最佳实践**
+ 为每个转换层建立明确的所有权。
+ 记录数据集的关系和依赖关系。
+ 根据业务需求规划层次结构深度。
+ 保持一致的命名惯例。
+ 仔细查看和更新上游数据集。

# 仅限香料的功能


Amazon Quick Sight 的 SPICE（超快速、并行、内存计算引擎）支持某些计算密集型的数据准备功能。这些转换是在 SPICE 中实现的，以获得最佳性能，而不是在查询时执行。

**仅限香料的功能**


| Steps | 其他功能 | 
| --- | --- | 
|  [\[See the AWS documentation website for more details\]](http://docs.amazonaws.cn/quick/latest/userguide/spice-only-features.html)  |  [\[See the AWS documentation website for more details\]](http://docs.amazonaws.cn/quick/latest/userguide/spice-only-features.html)  | 

**SPICE 和 DirectQuery**


| Steps | 其他功能 | 
| --- | --- | 
|  [\[See the AWS documentation website for more details\]](http://docs.amazonaws.cn/quick/latest/userguide/spice-only-features.html)  |  [\[See the AWS documentation website for more details\]](http://docs.amazonaws.cn/quick/latest/userguide/spice-only-features.html)  | 

**最佳实践**
+ 将 SPICE 用于需要仅限 Spice 功能的工作流程。
+ 选择 SPICE 可优化复杂转换和大型数据集的性能。
+ 当不需要仅限 Spice 的功能时，可以考虑 DirectQuery 满足实时数据需求。

# 在数据准备体验之间切换


传统数据准备体验是指在 2025 年 10 月之前存在的 Amazon Quick Sight 中以前的数据准备界面。新的数据准备体验是显示 step-by-step转换序列的增强型可视化界面。旧数据集是在新的数据准备体验之前创建的数据集，而新数据集是指在 2025 年 10 月之后创建的数据集。

创建新数据集时，Quick Sight 会自动引导您进入新的数据准备体验。此可视化界面为数据转换任务提供了增强的功能和更高的可用性。

## 选择退出选项


在保存和发布数据集之前，如果愿意，您可以选择切换回传统的数据准备体验。这种灵活性使团队能够按照自己的节奏进行过渡，同时熟悉新界面。

**重要**  
如果在新体验中保存并发布了数据集，则无法选择返回旧版体验。这是设计使然，因为新体验具有重要的新功能，而传统体验不支持这些功能。因此，不支持将数据集从一种体验直接转换为另一种体验。您需要创建一个新的数据集才能切换到旧版体验。

## 过渡工作流程


在新的或旧版体验中保存数据集后，转换就无法直接从一种体验转换为另一种体验。但是，如果存在已发布的数据集版本，则可以使用版本控制转到旧版体验中的先前版本。

传统数据集将继续只能通过旧版界面进行查看和编辑。这样可以保持与先前建立的工作流程的兼容性。

在完全过渡之前，请花点时间熟悉新的数据准备体验。在处理旧数据集时，可以考虑使用新的体验创建新版本，以便将来进行修改。如果需要，可使用版本控制来维护对数据集旧版本的访问权限。记录从传统体验过渡到新体验时工作流程中的任何变化，以确保团队协调一致。

# 新的数据准备体验不支持的功能
不支持的功能

虽然新的数据准备体验提供了增强的功能，但尚不支持旧版体验中的某些功能。本节概述了这些功能，并为处理受影响的工作流程提供了指导。

使用不支持的数据源时，Amazon Quick Sight 会自动默认使用旧版体验。对于其他不支持的功能，请选择数据准备页面右上角的**切换到旧版体验**。在旧版体验中创建的规则数据集仍与旧版和新版体验数据集兼容。

## 不支持的数据源


以下数据源目前仅在旧版体验中可用。


| 数据来源 | Details | 
| --- | --- | 
|  Salesforce  |  自动默认为旧版体验  | 
|  Google Sheets  |  自动默认为旧版体验  | 
|  S3 分析  |  **支持 S3 数据源**  | 

## 其他不支持的功能


以下功能目前仅在旧版体验中可用。


| 功能类别 | 不支持的功能 | 
| --- | --- | 
|  数据集管理  |  [增量刷新](refreshing-imported-data.md#refresh-spice-data-incremental)、[数据集参数](dataset-parameters.md)、[列文件夹](organizing-fields-folder.md)、[列描述](describing-data.md)  | 
|  数据类型  |  [地理空间](geospatial-data-prep.md)[、[ELF/CLF 格式](supported-data-sources.md#file-data-sources)、S3 中的 Zip/ 文件 GZip ](supported-data-sources.md#file-data-sources)  | 
|  配置选项  |  [文件上传设置中的 “从行开始”](choosing-file-upload-settings.md)，JODA 日期格式  | 
|  从传统体验中选择父数据集  |  父数据集和子数据集必须存在于同一个体验环境中。您不能将旧版体验数据集用作新体验数据集的父数据集。  | 

## 未来发展


Amazon Quick Sight 计划将来在新的数据准备体验中实现这些功能。这种方法可确保新数据准备体验的初始发布优先考虑以下几点：

**增强的功能**
+ 视觉变换工作流程
+ 提高流程透明度
+ 通过 Divergence 获得高级制备技术
+ 强大的新功能，例如追加、聚合和透视

**灵活采用**

用户可以在发布数据集之前在体验之间进行选择，从而在团队按照自己的节奏过渡的同时确保工作流程不间断。这种方法允许立即访问新功能，同时通过传统体验保持对特殊需求的支持。

# 数据准备限制


Amazon Quick Sight 的数据准备体验旨在处理企业级数据集，同时保持最佳性能。以下限制可确保功能可靠。

## 数据集大小限制 (SPICE)

+ **输出大小**：高达 2TB 或 20 亿行
+ **总输入大小**：组合输入源不能超过 2TB
+ **辅助表大小**：合并大小限制为 20GB

**注意**  
主表是指工作流程中具有最大大小的表；所有其他表都是次要表。

## 工作流程结构限制

+ **最大步骤**：每个工作流程最多 256 个转换步骤
+ **源表**：每个工作流程最多 32 个导入步骤
+ **输出列**：工作流程中任何步骤最多有 2048 列，最终输出表有 2000 列
+ **发散路径**：单个步骤最多有 5 条路径（仅限 SPICE，不适用于 DirectQuery）
+ 以@@ **数据集为源**：SPICE 和 DirectQuery

这些限制旨在平衡灵活性与性能，实现复杂的数据转换，同时确保最佳的分析能力。

# 摄取行为发生变化


新的数据准备体验引入了 SPICE 摄取期间处理数据质量问题的重要变化。这一变化会显著影响数据集中的数据完整性和透明度。

在传统体验中，当遇到数据类型不一致（例如日期格式不正确或[类似问题](errors-spice-ingestion.md)）时，在摄取过程中会跳过包含有问题单元格的整行。这种方法会减少最终数据集中的行数，从而可能掩盖数据质量问题。

新体验采用了更精细的方法来解决数据不一致问题。遇到有问题的单元格时，只有不一致的值才会转换为空值，同时保留整行。这种保留可确保其他列中的相关数据仍然可供分析。

**对数据集质量的影响**

当源数据包含不一致时，在新体验中创建的数据集通常会比旧版数据集包含更多的行。这种增强的方法有几个好处：
+ 通过保留所有行来提高数据的完整性
+ 提高识别数据质量问题的透明度
+ 更好地了解有问题的值以进行补救
+ 将相关数据保存在未受影响的列中

这一变化使分析师能够更有效地识别和解决数据质量问题，而不必在数据集中忽略有问题的行。

# 常见问题


## 1. 用户何时需要从全新体验切换到传统体验？


用户在处理包含当前[不支持的功能](unsupported-features.md)的数据集时，必须返回旧版体验。Quick Sight正在积极努力将这些功能整合到即将发布的版本中的新体验中。

## 2. 当尝试在新体验中添加数据集时，为什么数据集会显示为灰色？ 数据集能否在传统体验和新体验之间进行组合？


目前，父数据集和子数据集必须存在于同一个体验环境中。您无法合并旧体验和新体验的数据集，因为新体验包括旧版体验中不提供的其他功能，例如追加功能、Pivot 功能和 Divergence。

**使用旧版体验中的父数据集**

要使用旧版体验中的父数据集，您可以切换回该环境。只需导航到数据准备页面，然后选择右上角的 “**切换回传统体验**” 即可。在那里，您可以根据需要创建子数据集。

**未来发展**

我们计划实施允许用户将旧数据集升级到新体验的功能。这种升级后的路径将允许在新体验中使用旧的家长数据集。

## 3. 为什么 Quick Sight 在实现与传统体验完全相同的功能之前推出新的数据准备体验？


新的数据准备体验是通过广泛的客户合作开发的，旨在应对现实世界的分析挑战。最初的发布会优先考虑：

**增强的功能**
+ 视觉变换工作流程
+ 提高流程透明度
+ 通过 Divergence 获得高级制备技术
+ 强大的新功能，例如追加、聚合和透视

**灵活采用**

用户可以在发布数据集之前在体验之间进行选择，从而在团队按照自己的节奏过渡的同时确保工作流程不间断。这种方法允许立即访问新功能，同时通过传统体验保持对特殊需求的支持。

## 4. 目前仅在旧版体验中可用的功能是否会添加到新体验中？


可以。Quick Sight正在积极努力将传统功能整合到新体验中。

## 5. API 更改如何影响现有的数据集创建脚本？


Quick Sight 在引入新功能的同时保持了向后兼容性：
+ 现有脚本：旧版 API 脚本将继续运行，在旧版体验中创建数据集
+ API 命名：当前 API 名称保持不变
+ 新功能：其他 API 格式支持新体验的增强功能
+ 文档：我们的 API 参考中提供了新体验的完整 API 规范

## 6. 发布后，数据集能否在体验之间进行转换？

+ 未来迁移路径：Quick Sight将在未来添加一项功能，以轻松将旧数据集迁移到新体验。
+ 单向流程：由于高级功能依赖性，不支持将数据集从新体验转换为旧格式