在控制台中使用自动优化 - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在控制台中使用自动优化

您可以使用 Amazon S OpenSearch ervice 控制台创建矢量摄取任务、监控其进度、查看优化建议并根据这些建议构建索引。

先决条件

在控制台中使用自动优化功能之前,必须具备以下条件:

  • 有权访问 OpenSearch 控制台的活跃Amazon账户。

  • 矢量搜索类型的现有 OpenSearch 无服务器集合或托管 OpenSearch 域。

  • 以下操作的 IAM 权限:

    • opensearch:SubmitAutoOptimizeJob

    • opensearch:GetAutoOptimizeJob

    • opensearch:DeleteAutoOptimizeJob

    • opensearch:CancelAutoOptimizeJob

    • opensearch:ListAutoOptimizeJobs

    注意

    这些是基于身份的策略。 Amazon不支持自动优化资源的基于资源的策略。

  • 将您的联合用户会话配置为证书的最短到期时间至少为 1 小时。对于非常大的数据集或高维度,可以考虑将过期时间延长至 3 小时。

创建矢量摄取作业

矢量摄取任务会分析您的矢量数据,并为索引配置提供优化建议。

创建矢量摄取作业
  1. 登录亚马逊 OpenSearch 服务控制台,网址为Amazon Web Services 管理控制台

  2. 在导航窗格中,选择自动优化

  3. 选择 “创建矢量摄取作业”。

  4. Job 详细信息下,输入矢量摄取任务的名称。此名称可帮助您在控制台中识别任务。

  5. 数据源下,配置以下内容:

    1. 对于亚马逊 S3 URI,请输入包含 Parquet 文件的文件夹的亚马逊 S3 URI。URI 必须指向封闭文件夹,而不是单个文件。例如,如果您的 Parquet 文件位于s3://my-bucket/my-folder/file1.parquet,请输入s3://my-bucket/my-folder/

    2. 对于区域,选择您的 Amazon S3 存储桶所在的Amazon区域。该区域必须与存储桶位置相匹配。

  6. 在 “OpenSearch 域” 下,选择一个现有的域名或集合,或者选择 “新建” 来创建一个。

    注意

    您可以指定 OpenSearch 托管域或 OpenSearch 无服务器集合。

  7. 数据源权限下,指定有权访问您的 Amazon S3 存储桶和 OpenSearch 域或集合的 IAM 角色。根据您的域名或集合配置,该角色必须具有必要的权限:

    • 对于具有 OpenSearch 域访问策略的域,请通过该策略向角色授予访问权限。

    • 对于具有精细访问控制的 OpenSearch 域,请将该角色添加为后端角色。

    • 对于 OpenSearch 无服务器集合,请将角色添加到数据访问策略中。

  8. 选择下一步

  9. 在 “配置索引” 下,指定以下内容:

    1. 字段名称中,输入包含矢量数据的 Parquet 数据集中的列名。

    2. 对于空间类型,选择用于计算向量间距离的距离度量:

      • l2-欧几里得距离

      • cosinesimil- 余弦相似度

      • 内部产品-内部产品

    3. 对于尺寸,输入每个向量中浮点值的数量。

  10. 在 “性能要求” 下,配置以下内容:

    1. 对于 Rec all,请将所需的搜索质量指定为 0 到 1 之间的十进制值。召回值越高,返回的相关结果越多。例如:

      • 0.95 表示平均返回最接近查询向量的 20 个文档向量中的 19 个

      • 0.9 表示十分之九

      • 0.8 表示十分之八

    2. 对于搜索延迟要求,请选择您的延迟容限。适度的要求允许通过压缩方法降低内存需求,从而节省更多成本。

  11. 选择下一步

  12. 查看您的配置并选择创建

作业开始处理。您可以在 “矢量摄取作业” 表中监控其进度。

监控优化作业

您可以从自动优化登录页面监控矢量摄取任务的状态。

监控优化作业
  1. https://console.aws.amazon.com/aos/家中登录亚马逊 OpenSearch 服务控制台。

  2. 在导航窗格中,选择自动优化

  3. Vector Ingestion Job s 表显示了所有作业及其当前状态。刷新页面以查看更新的状态信息。

    注意

    没有自动刷新或通知机制。您必须手动刷新控制台才能查看任务何时完成。

了解作业状态状态

自动优化作业可以具有以下状态值:

待定

作业已排队等候启动。

运行

自动优化任务是主动分析您的数据并生成建议。

Completed

自动优化作业已成功完成。所有分析、评估和建议均已完成,可供查看。

失败

作业遇到了错误。在作业详细信息页面中查看错误详细信息以确定原因。

活动

已在连接的集群中创建了索引,并已提取数据。

Job 持续时间主要取决于数据集大小和当前服务负载。典型的任务会在 15 分钟到几小时内完成。

查看任务详细信息

您可以查看有关特定优化作业的详细信息,包括其配置和状态。

查看职位详情
  1. https://console.aws.amazon.com/aos/家中登录亚马逊 OpenSearch 服务控制台。

  2. 在导航窗格中,选择自动优化

  3. 在 “矢量摄取作业” 表中,选择作业名称。

  4. 作业详细信息页面显示以下信息:

    • Job 名称和状态

    • 数据源配置(Amazon S3 URI 和区域)

    • OpenSearch 域名或集合

    • 索引配置(字段名称、空间类型、维度)

    • 性能要求(召回和延迟)

    • 错误消息(如果任务失败)

查看和理解结果

任务成功完成后,您可以查看优化建议。

查看优化结果
  1. https://console.aws.amazon.com/aos/家中登录亚马逊 OpenSearch 服务控制台。

  2. 在导航窗格中,选择自动优化

  3. 在 “矢量摄取作业” 表中,选择状态为 “已完成” 的作业。

  4. 结果页面显示以下部分:

    • 结果概述-显示与您的要求相比的估计搜索质量召回率,以及与最高推荐配置相比的索引内存占用量。

    • 建议-列出最多三项优化建议,按最优先的建议顺序排列最适合您的配置。每项建议包括:

      • 索引配置参数

      • 搜索配置参数

      • 预期性能指标

      • 内存占用量估计

    注意

    虽然推荐按最佳匹配排序,但您可以选择任何更适合您的特定用例的建议。自动优化尝试以找到与您选择的召回标准最接近的匹配项。

根据推荐建立索引

查看优化建议后,您可以使用推荐的配置手动创建索引,也可以使用所选建议自动构建索引。

自动生成索引
  1. https://console.aws.amazon.com/aos/家中登录亚马逊 OpenSearch 服务控制台。

  2. 在导航窗格中,选择自动优化

  3. 在 “矢量摄取作业” 表中,选择状态为 “已完成” 的作业。

  4. 查看建议并选择要使用的建议。

  5. 选择 “生成索引”。

  6. 系统会使用所选推荐在您的集群中自动创建索引,并从 Parquet 数据集中提取矢量数据。

手动生成索引
  1. https://console.aws.amazon.com/aos/家中登录亚马逊 OpenSearch 服务控制台。

  2. 在导航窗格中,选择自动优化

  3. 在 “矢量摄取作业” 表中,选择状态为 “已完成” 的作业。

  4. 查看建议并记下所选建议的索引配置和搜索配置参数。

  5. 使用 OpenSearch API 或控制台手动创建带有推荐参数的索引。