Amazon SageMaker Feature Store 离线存储数据格式 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker Feature Store 离线存储数据格式

Amazon SageMaker Feature Store 离线存储数据存储在您的账户内的 Amazon S3 存储桶中。在调用PutRecord时,您的数据将在 15 分钟内缓冲、批处理并写入 Amazon S3。Feature Store 支持 CSV 和 Parquet 文件格式。每个文件可以包含多个 Records。 

文件使用以下命名约定进行组织:

S3://bucket-name/<customer-prefix>/<account-id>/sagemaker/<aws-region>/OfflineStore/<feature-group-name>/event-time-year/      event-time-month/event-time-day/event-time-hour/<account-id>_sagemaker_<aws_region>_offline-store_<feature-group-name>_<timestamp_of_earliest_event_time_in_file>_<random_stuff>.parquet

例如:

S3://my-bucket/my-prefix/123456789012/sagemaker/us-east-1/offline-store/      customer-purchase-history-patterns/2020/06/31/00/      123456789012_sagemaker_us-east-1_offline-store_customer-purchase-history-patterns_20130917T064401Z_108934320012Az11.parquet

 当以下其他字段在离线商店中保留时,Feature Store 会将它们添加到每个Record中: 

  • write_time 将数据写入脱机存储时的时间戳。–可用于构建与时间遍历相关的查询。

  • event_time – API 调用中提供的时间戳。PutRecord

  • is_deleted 默认情况下为 – False。如果调用了 DeleteRecord,则会在脱机存储中将新的 Record 插入 RecordIdentifierValue 并设置为 True