离线存储 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

离线存储

当不需要亚秒级检索时,使用离线存储来存储历史数据。它通常用于数据探索、模型训练和批量推理。

为特征组同时启用在线和离线存储时,两个存储会同步,以避免训练数据和提供数据之间存在差异。请注意,启用了 InMemory 存储类型的在线存储特征组目前不支持离线存储中的相应特征组(不支持在线到离线复制)。有关在 Amazon Feature Store SageMaker 中提供机器学习模型的更多信息,请参阅在线存储

离线存储包含以下 TableFormat 选项。有关线下商店内容的信息,请参阅 Amazon SageMaker API 参考OfflineStoreConfig中的。

Glue 表格式

Glue 格式(默认)是 Amazon Glue的标准 Hive 类型表格式。借 Amazon Glue助,您可以发现、准备、移动和整合来自多个来源的数据。它还包括用于编写、运行任务和实施业务工作流程的额外生产力和数据操作工具。有关的更多信息 Amazon Glue,请参阅什么是 Amazon Glue?

Iceberg 表格式

Iceberg 格式(建议)是适用于超大型分析表的开放表格式。使用 Iceberg 可以将分区中的小数据文件压缩成较少的大文件,从而显著加快查询速度。此压缩操作是并发的,不会影响特征组上正在进行的读取和写入操作。有关优化 Iceberg 表的更多信息,请参阅 A mazon Amazon Lake FormationAthena 和用户指南。

Iceberg 以表的形式管理大量文件并支持现代分析数据湖操作。如果您在创建新功能组时选择该Iceberg选项,Amazon SageMaker Feature Store 将使用 Parquet 文件格式创建Iceberg表格,并将这些表注册到中 Amazon Glue Data Catalog。有关Iceberg表格式的更多信息,请参阅使用 Apache Iceberg 表。

重要

请注意,对于 Iceberg 表格式的特征组,您必须指定 String 作为事件时间的特征类型。如果指定任何其他类型,则无法成功创建特征组。