

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建 Amazon S3 数据集


**创建 Amazon S3 数据集**

1. 选中 [数据来源限额](data-source-limits.md) 以确保目标文件设置未超出数据来源限制。

1. 使用 [支持的 Amazon S3 清单文件格式](supported-manifest-file-format.md)中指定的格式之一创建清单文件，以确定要导入的文本文件。

1. 将清单文件保存到本地目录中，或者将其上传到 Amazon S3 中。

1. 在快速入门页面上，选择**数据**。

1. 在**数据**页面上，选择**创建**，然后选择**新数据集**。

1. 选择 Amazon S3 图标，然后选择**下一步**。

1. 对于**数据来源名称**，输入数据来源的描述。这应该是帮助将该数据来源与其他数据来源区分开来的名称。

1. 对于 **Upload a manifest file**，请执行以下操作之一：
   + 要使用本地清单文件，请选择 **Upload**，然后选择 **Upload a JSON manifest file**。对于 **Open**，请选择一个文件，然后选择 **Open**。
   + 要使用 Amazon S3 中的清单文件，请选择 **URL**，然后输入该清单文件的 URL。要在 Amazon S3 控制台中查找预先存在的清单文件的 URL，请导航到并选择相应的文件。随即显示属性面板，包括链接 URL。您可以复制 URL 并将其粘贴到 Quick Sight 中。

1. 选择**连接**。

1. 要确保已完成连接，请选择 **Edit/Preview data**。否则，选择 **Visualize** 以原样使用数据创建分析。

   如果选择**编辑/预览数据**，您可以在准备数据过程中指定数据集名称。否则，数据集名称与将与清单文件名称匹配。

   要了解数据准备的更多信息，请参阅[使用 Amazon Quick Sight 准备数据](preparing-data.md)。

## 基于多个 Amazon S3 文件创建数据集


您可以使用以下几种方法之一在 Quick Sight 中合并或合并来自 Amazon S3 存储桶的文件：
+ **使用清单组合文件** – 在这种情况下，这些文件必须具有相同数量的字段（列）。文件的相同位置中的字段必须具有匹配的数据类型。例如，每个文件中的第一个字段必须具有相同的数据类型。第二个字段、第三个字段以及后续字段也是如此。Quick Sight 从第一个文件中获取字段名称。

  必须在清单中明确列出这些文件。但是，它们不必位于同一个 Amazon S3 存储桶内。

  此外，这些文件还必须遵循[支持的 Amazon S3 清单文件格式](supported-manifest-file-format.md)中所述的规则。

  有关使用清单组合文件的更多详细信息，请参阅[使用 Amazon S3 文件创建数据集](create-a-data-set-s3.md)。
+ **不使用清单合并文件** – 要将多个文件合并为一个文件而不必在清单中单独列出这些文件，您可以使用 Athena。在使用这种方法时，您只需查询您的文本文件，就像它们位于数据库的表中一样。有关更多信息，请参阅大数据博客中的 [Analyzing data in Amazon S3 using Athena](https://www.amazonaws.cn/blogs/big-data/analyzing-data-in-s3-using-amazon-athena/)。
+ **在导入之前使用脚本附加文件** – 在上传之前，您可以使用用于组合文件的脚本。