Amazon 服务中的 PB 级规模 OpenSearch - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 服务中的 PB 级规模 OpenSearch

Amazon OpenSearch 服务域提供高达 3 PB 的附加存储空间。您可以配置包含 200 个 i3.16xlarge.search 实例类型的域,每个实例类型都有 15 TB 的存储空间。由于规模上的显著差异,针对此大小的域的建议不同于我们的一般建议。本节讨论创建域、成本、存储空间和分片大小的注意事项。

虽然本节中频繁引用多个 i3.16xlarge.search 实例类型,您可以使用其他实例类型,以达到 1PB 的总域存储。

创建域

这种大小的域超过了每个域 80 个实例的默认限制。要请求将服务限制提升到每个域最多 200 个实例,请在 Amazon 支持中心上打开一个案例。

定价

在创建如此大小的域名之前,请查看亚马逊 OpenSearch 服务定价页面,确保相关费用符合您的预期。检查 UltraWarm 亚马逊 OpenSearch 服务的存储空间 以查看热-温架构是否适合您的使用案例。

存储

i3 实例类型设计用于提供快速、本地的非易失性存储规范 (NVMe) 存储空间。由于与 Amazon Elastic Block Store 相比,这种本地存储往往具有性能优势,因此当您在 OpenSearch 服务中选择这些实例类型时,EBS 卷不是一个选项。如果您更喜欢 EBS 存储,请使用其他实例类型,如 r6.12xlarge.search

分片大小和计数

通常的 OpenSearch 指导方针是每个分片的容量不得超过 50 GB。考虑到容纳大型域和可用于 i3.16xlarge.search 实例的资源所需的分片数量,建议使用 100 GB 的分片大小。

例如,如果您有 450 TB 的源数据并且需要一个副本,您的最低 存储要求更接近 450 TB * 2 * 1.1 / 0.95 = 1.04 PB。有关此计算的说明,请参阅计算存储要求。尽管 1.04 PB/15 TB = 70 个实例,但您可以选择 90 个或更多 i3.16xlarge.search 实例来为自己提供存储安全网,处理节点失败和账户,从而适应数据量随着时间的推移发生的变化。每个实例都会将存储需求下限增加 20GiB,但对于这个规模的磁盘而言,20GiB 几乎可以忽略不计。

控制分片的数量很棘手。 OpenSearch 用户通常每天轮换索引,并将数据保留一两个星期。在这种情况下,您可能会发现,区分“活动”和“非活动”分片很有用。活动分片,就是经常发生读取或写入的分片。非活动分片可能为一些读取请求提供服务,但基本上是闲置的。一般而言,您应该把活动分片的数量保持在数千以下。当活动分片的数量接近 10,000 时,会出现相当大的性能和稳定性风险。

要计算主分片的数量,请使用以下公式:450,000 GB * 1.1/每个分片 100 GB = 4,950 个分片。将这个数字翻倍以考虑副本是 9900 个分片,这在所有分片都处于活动状态时表示主要考虑因素。但是,如果您轮换索引,而且 1/7 或 1/14 的分片在给定日期处于活动状态(分别是 1414 或 707 个分片),则集群可能工作正常。与往常一样,对您的域进行大小调整和配置的最重要的步骤是使用真实的数据集执行有代表性的客户端测试。