向量搜索 - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

向量搜索

Amazon S OpenSearch ervice 中的矢量搜索使您能够使用机器学习嵌入而不是传统的关键字匹配来搜索语义上相似的内容。向量搜索将您的数据(文本、图像、音频等)转换为高维数值向量(嵌入),这些向量能够捕捉内容的语义含义。执行搜索时, OpenSearch将查询的向量表示与存储的向量进行比较,以找到最相似的项目。

向量搜索包含以下关键组件。

向量字段

OpenSearch 支持knn_vector字段类型来存储具有可配置维度(最多 16,000)的密集向量。

搜索方法
  • k-NN(k 最近邻):查找 k 个最相似的向量

  • 近似 k-NN:使用 HNSW(分级导航小世界)等算法,实现对大型数据集的快速搜索

距离指标

支持多种相似度计算,包括:

  • 欧氏距离

  • 余弦相似性

  • 点积

常见使用案例

向量搜索支持以下常见使用案例。

  • 语义搜索:查找含义相似的文档,而非仅匹配关键词

  • 推荐系统:推荐相似商品、内容或用户

  • 图片搜索:查找视觉上相似的图片

  • 异常检测:识别数据模式中的异常值

  • RAG(检索增强生成):利用相关上下文增强 LLM 响应

与机器学习集成

OpenSearch 与以下机器学习服务和模型集成:

  • Amazon Bedrock:使用基础模型生成嵌入向量

  • Amazon SageMaker AI:用于自定义机器学习模型部署

  • Hugging Face 模型:预训练的嵌入模型

  • 自定义模型:您自行训练的嵌入模型

借助矢量搜索,您可以构建复杂的 AI 驱动的应用程序,这些应用程序可以理解上下文和含义,远远超出传统的文本匹配功能。