Amazon Elastic Compute Cloud
Linux 实例用户指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

使用公用数据集

Amazon Web Services 提供可无缝集成到基于 AWS 云的应用程序中的公用数据集存储库。Amazon 将数据集免费存储到社区中,与所有 AWS 服务一样,您只需要为自己的应用程序所用的计算和存储付费。

公用数据集概念

以前,查找、下载、自定义以及分析大数据集,如人类基因组的映射和美国人口普查局的数据,需要几小时甚至几天才能完成。现在,任何人都可以通过 EC2 实例访问这些数据集并在数分钟内开始这些数据的计算工作。您还可以利用整个 AWS 生态系统,轻松与其他 AWS 用户协作工作。例如,您可以通过工具和应用程序生产或使用预先构建的系统镜像来分析数据集。通过利用经济实惠的服务,如 Amazon EC2,托管这些重要数据,AWS 希望为各个学科和行业的研究人员提供实用的工具,促进更多、更快的创新。

有关更多信息,请转到 AWS 公用数据集页面。

可用的公用数据集

目前,以下类别中的公用数据集可用:

 • 生物学 – 包括人类基因组计划、基因库和其他内容。

 • 化学 – 包括多个版本的 PubChem 和其他内容。

 • 经济学 – 包括人口普查数据、劳动统计数据、交通统计数据和其他内容。

 • 百科知识 – 包括多种来源的维基百科数据和其他内容。

查找公用数据集

在能够使用公用数据集之前,必须查找该数据集,然后确定托管该数据集所采用的格式。这些数据集采用两种可能的格式:Amazon EBS 快照或 Amazon S3 存储桶。

查找公用数据集并确定其格式

 1. 转到 AWS 公用数据集页面以查看所有可用公用数据集的列表。您还可以在此页面上输入搜索短语以查询可用公用数据集列表。

 2. 单击数据集的名称以查看其详细信息页面。

 3. 在数据集详细信息页面上,查找快照 ID 列表以标识 Amazon EBS 格式化数据集或 Amazon S3 URL。

采用快照格式的数据集用于创建附加到 EC2 实例的新 EBS 卷。有关更多信息,请参阅 从快照创建公用数据集卷

对于采用 Amazon S3 格式的数据集,可以使用 AWS 开发工具包或 HTTP 查询 API 访问信息,也可以使用 AWS CLI 将数据复制或同步到实例或是从实例复制或同步数据。有关更多信息,请参阅 Amazon S3 和 Amazon EC2

还可以使用 Amazon EMR 分析和使用公用数据集。有关更多信息,请参阅 Amazon EMR 是什么?

从快照创建公用数据集卷

要使用采用快照格式的公用数据集,请创建新卷,指定公用数据集的快照 ID。可以使用 AWS 管理控制台创建新卷,如下所示。如果您愿意,也可以使用 create-volume AWS CLI 命令。

从快照创建公用数据集卷

 1. 打开 Amazon EC2 控制台 https://console.amazonaws.cn/ec2/

 2. 在导航栏中,选择您的数据集快照所处的区域。

  如果您需要在其他区域中创建该卷,则可以将快照复制到该区域,然后使用它在该区域中创建卷。有关更多信息,请参阅 复制 Amazon EBS 快照

 3. 在导航窗格中,选择 ELASTIC BLOCK STORE

 4. 选择 Create Volume

 5. 对于 Volume Type,选择卷类型。有关更多信息,请参阅 Amazon EBS 卷类型

 6. 对于 Snapshot,开始键入具有数据集的快照的 ID 或描述,然后从列表中选择该快照。

  如果您预期看到的快照未出现,则表示您可能尚未选择该快照所在的区域。如果您在查找公用数据集中标识的数据集未在其详细信息页面上指定区域,则它可能包含在 us-east-1 美国东部(弗吉尼亚北部) 区域中。

 7. 对于 Size (GiB),键入卷的大小,或验证快照的默认大小是否足够。

  注意

  如果您指定卷大小和快照,其大小必须等于或大于快照的大小。当您选择一种卷类型和一个快照时,最小和最大卷大小将显示在 Size 旁边。

 8. 对于 预配置 IOPS SSD 卷,在 IOPS 中,键入该卷应支持的每秒输入/输出操作数 (IOPS) 的最大值。

 9. 对于 Availability Zone,选择要在其中创建卷的可用区。EBS 卷只能附加到位于相同可用区中的实例。

 10. (可选) 选择 Create additional tags 以将标签添加到卷。对于每个标签,提供标签键和标签值。

 11. 选择 Create Volume

附加和装载公用数据集卷

创建新数据集卷之后,您需要将其附加到 EC2 实例才能访问数据 (此实例还必须处于与新卷相同的可用区中)。有关更多信息,请参阅 将 Amazon EBS 卷附加到实例

将卷附加到实例之后,您需要在实例上装载该卷。有关更多信息,请参阅 Linux中的使 Amazon EBS 卷可用

如果您将一个快照还原到了超过该快照默认大小的一个较大的卷,则必须扩展卷上的文件系统以利用额外的空间。有关更多信息,请参阅 在 Linux 上修改 EBS 卷的大小、IOPS 或类型