本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker Feature Store 离线存储数据格式
Amazon SageMaker Feature Store 离线存储数据存储在您的账户内的 Amazon S3 存储桶中。在调用PutRecord
时,您的数据将在 15 分钟内缓冲、批处理并写入 Amazon S3。Feature Store 支持 CSV 和 Parquet 文件格式。每个文件可以包含多个
Records
。
文件使用以下命名约定进行组织:
S3://bucket-name/<customer-prefix>/<account-id>/sagemaker/<aws-region>/OfflineStore/<feature-group-name>/event-time-year/ event-time-month/event-time-day/event-time-hour/<account-id>_sagemaker_<aws_region>_offline-store_<feature-group-name>_<timestamp_of_earliest_event_time_in_file>_<random_stuff>.parquet
例如:
S3://my-bucket/my-prefix/123456789012/sagemaker/us-east-1/offline-store/ customer-purchase-history-patterns/2020/06/31/00/ 123456789012_sagemaker_us-east-1_offline-store_customer-purchase-history-patterns_20130917T064401Z_108934320012Az11.parquet
当以下其他字段在离线商店中保留时,Feature Store 会将它们添加到每个Record
中:
-
write_time 将数据写入脱机存储时的时间戳。–可用于构建与时间遍历相关的查询。
-
event_time – API 调用中提供的时间戳。
PutRecord
-
is_deleted 默认情况下为 –
False
。如果调用了DeleteRecord
,则会在脱机存储中将新的Record
插入RecordIdentifierValue
并设置为True
。