本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在控制台中使用自动优化
您可以使用 Amazon S OpenSearch ervice 控制台创建矢量摄取任务、监控其进度、查看优化建议并根据这些建议构建索引。
先决条件
在控制台中使用自动优化功能之前,必须具备以下条件:
-
有权访问 OpenSearch 控制台的活跃Amazon账户。
-
矢量搜索类型的现有 OpenSearch 无服务器集合或托管 OpenSearch 域。
-
以下操作的 IAM 权限:
opensearch:SubmitAutoOptimizeJobopensearch:GetAutoOptimizeJobopensearch:DeleteAutoOptimizeJobopensearch:CancelAutoOptimizeJobopensearch:ListAutoOptimizeJobs
注意
这些是基于身份的策略。 Amazon不支持自动优化资源的基于资源的策略。
-
将您的联合用户会话配置为证书的最短到期时间至少为 1 小时。对于非常大的数据集或高维度,可以考虑将过期时间延长至 3 小时。
创建矢量摄取作业
矢量摄取任务会分析您的矢量数据,并为索引配置提供优化建议。
创建矢量摄取作业
-
登录亚马逊 OpenSearch 服务控制台,网址为Amazon Web Services 管理控制台
。 -
在导航窗格中,选择自动优化。
-
选择 “创建矢量摄取作业”。
-
在 Job 详细信息下,输入矢量摄取任务的名称。此名称可帮助您在控制台中识别任务。
-
在数据源下,配置以下内容:
-
对于亚马逊 S3 URI,请输入包含 Parquet 文件的文件夹的亚马逊 S3 URI。URI 必须指向封闭文件夹,而不是单个文件。例如,如果您的 Parquet 文件位于
s3://my-bucket/my-folder/file1.parquet,请输入s3://my-bucket/my-folder/。 -
对于区域,选择您的 Amazon S3 存储桶所在的Amazon区域。该区域必须与存储桶位置相匹配。
-
-
在 “OpenSearch 域” 下,选择一个现有的域名或集合,或者选择 “新建” 来创建一个。
注意
您可以指定 OpenSearch 托管域或 OpenSearch 无服务器集合。
-
在数据源权限下,指定有权访问您的 Amazon S3 存储桶和 OpenSearch 域或集合的 IAM 角色。根据您的域名或集合配置,该角色必须具有必要的权限:
-
对于具有 OpenSearch 域访问策略的域,请通过该策略向角色授予访问权限。
-
对于具有精细访问控制的 OpenSearch 域,请将该角色添加为后端角色。
-
对于 OpenSearch 无服务器集合,请将角色添加到数据访问策略中。
-
-
选择下一步。
-
在 “配置索引” 下,指定以下内容:
-
在字段名称中,输入包含矢量数据的 Parquet 数据集中的列名。
-
对于空间类型,选择用于计算向量间距离的距离度量:
l2-欧几里得距离
cosinesimil- 余弦相似度
内部产品-内部产品
-
对于尺寸,输入每个向量中浮点值的数量。
-
-
在 “性能要求” 下,配置以下内容:
-
对于 Rec all,请将所需的搜索质量指定为 0 到 1 之间的十进制值。召回值越高,返回的相关结果越多。例如:
0.95 表示平均返回最接近查询向量的 20 个文档向量中的 19 个
0.9 表示十分之九
0.8 表示十分之八
-
对于搜索延迟要求,请选择您的延迟容限。适度的要求允许通过压缩方法降低内存需求,从而节省更多成本。
-
-
选择下一步。
-
查看您的配置并选择创建。
作业开始处理。您可以在 “矢量摄取作业” 表中监控其进度。
监控优化作业
您可以从自动优化登录页面监控矢量摄取任务的状态。
监控优化作业
-
在https://console.aws.amazon.com/aos/家
中登录亚马逊 OpenSearch 服务控制台。 -
在导航窗格中,选择自动优化。
-
Vector Ingestion Job s 表显示了所有作业及其当前状态。刷新页面以查看更新的状态信息。
注意
没有自动刷新或通知机制。您必须手动刷新控制台才能查看任务何时完成。
了解作业状态状态
自动优化作业可以具有以下状态值:
- 待定
-
作业已排队等候启动。
- 运行
-
自动优化任务是主动分析您的数据并生成建议。
- Completed
-
自动优化作业已成功完成。所有分析、评估和建议均已完成,可供查看。
- 失败
-
作业遇到了错误。在作业详细信息页面中查看错误详细信息以确定原因。
- 活动
-
已在连接的集群中创建了索引,并已提取数据。
Job 持续时间主要取决于数据集大小和当前服务负载。典型的任务会在 15 分钟到几小时内完成。
查看任务详细信息
您可以查看有关特定优化作业的详细信息,包括其配置和状态。
查看职位详情
-
在https://console.aws.amazon.com/aos/家
中登录亚马逊 OpenSearch 服务控制台。 -
在导航窗格中,选择自动优化。
-
在 “矢量摄取作业” 表中,选择作业名称。
-
作业详细信息页面显示以下信息:
Job 名称和状态
数据源配置(Amazon S3 URI 和区域)
OpenSearch 域名或集合
索引配置(字段名称、空间类型、维度)
性能要求(召回和延迟)
错误消息(如果任务失败)
查看和理解结果
任务成功完成后,您可以查看优化建议。
查看优化结果
-
在https://console.aws.amazon.com/aos/家
中登录亚马逊 OpenSearch 服务控制台。 -
在导航窗格中,选择自动优化。
-
在 “矢量摄取作业” 表中,选择状态为 “已完成” 的作业。
-
结果页面显示以下部分:
-
结果概述-显示与您的要求相比的估计搜索质量召回率,以及与最高推荐配置相比的索引内存占用量。
-
建议-列出最多三项优化建议,按最优先的建议顺序排列最适合您的配置。每项建议包括:
索引配置参数
搜索配置参数
预期性能指标
内存占用量估计
注意
虽然推荐按最佳匹配排序,但您可以选择任何更适合您的特定用例的建议。自动优化尝试以找到与您选择的召回标准最接近的匹配项。
-
根据推荐建立索引
查看优化建议后,您可以使用推荐的配置手动创建索引,也可以使用所选建议自动构建索引。
自动生成索引
-
在https://console.aws.amazon.com/aos/家
中登录亚马逊 OpenSearch 服务控制台。 -
在导航窗格中,选择自动优化。
-
在 “矢量摄取作业” 表中,选择状态为 “已完成” 的作业。
-
查看建议并选择要使用的建议。
-
选择 “生成索引”。
-
系统会使用所选推荐在您的集群中自动创建索引,并从 Parquet 数据集中提取矢量数据。
手动生成索引
-
在https://console.aws.amazon.com/aos/家
中登录亚马逊 OpenSearch 服务控制台。 -
在导航窗格中,选择自动优化。
-
在 “矢量摄取作业” 表中,选择状态为 “已完成” 的作业。
-
查看建议并记下所选建议的索引配置和搜索配置参数。
-
使用 OpenSearch API 或控制台手动创建带有推荐参数的索引。