启用实时向量嵌入蓝图之前的注意事项 - Amazon Managed Streaming for Apache Kafka
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

启用实时向量嵌入蓝图之前的注意事项

Managed Service for Apache Flink 应用程序仅支持在输入流中使用非结构化文本或 JSON 数据。

支持以下两种输入处理模式:

  • 如果输入数据为非结构化文本,则嵌入整条文本消息。向量数据库中包含原始文本和生成的嵌入。

  • 当输入数据为 JSON 格式时,应用程序允许您在 JSON 对象值中配置和指定一个或多个键,以用于嵌入过程。如果有多个键,则所有键将共同向量化,并在向量数据库中建立索引。向量数据库将包含原始消息和生成的嵌入。

嵌入生成:该应用程序支持专门由 Bedrock 提供的所有文本嵌入模型。

在矢量数据库存储中保留:应用程序使用客户账户中的现有 OpenSearch 集群(预配置或无服务器)作为保存嵌入式数据的目的地。使用 Opensearch 无服务器创建向量索引时,请务必使用向量字段名称 embedded_data

与 MSF 蓝图类似,您需要管理基础设施,以运行与实时向量嵌入蓝图相关的代码。

与 MSF 蓝图类似,创建 MSF 应用程序后,必须使用控制台或 CLI 在Amazon账户中以独占方式启动该应用程序。 Amazon不会为您启动 MSF 应用程序。你必须调用 StartApplication API(通过 CLI 或控制台)才能让应用程序运行。

跨账户移动数据:该应用程序不允许您在位于不同Amazon账户的输入流和矢量目标之间移动数据。