Amazon SageMaker 功能商店离线商店数据格式 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 功能商店离线商店数据格式

Amazon SageMaker 功能存储商店离线存储数据存储在您账户中的 Amazon S3 存储桶中。当您调用PutRecord,您的数据将在 15 分钟内进行缓冲、批处理并写入 Amazon S3。要素存储仅支持镶木地板文件格式。具体而言,当您的数据写入离线商店时,只能以镶木格式从 Amazon S3 存储桶中检索数据。每个文件可以包含多个Records.

文件按以下命名约定进行组织:

s3://<bucket-name>/<customer-prefix>/<account-id>/sagemaker/<aws-region>/offline-store/<feature-group-name>-<feature-group-creation-time>/data/year=<event-time-year>/ month=<event-time-month>/day=<event-time-day>/hour=<event-time-hour>/<timestamp_of_latest_event_time_in_file>_<16-random-alphanumeric-digits>.parquet

Records将按事件时间进行分区。全部Records将在您的数据被摄入的当天内有一个事件时间。

例如:

s3://my-bucket/my-prefix/123456789012/sagemaker/us-east-1/offline-store/ customer-purchase-history-patterns-1593511200/data/year=2020/month=06/day=31/hour=00/20200631T064401Z_108934320012Az11.parquet

要素存储还会公开脱机配置 .S3 存储图解决输出 3URI字段,该字段可以在描述功能重组API 调用。这是写入特定要素组文件的 S3 路径。

示例值ResolvedOutputS3Uri

s3://my-bucket/my-prefix/123456789012/sagemaker/us-east-1/offline-store/customer-purchase-history-patterns-1593511200/data

当以下附加字段保留在离线存储中时,要素存储将添加到每个记录中:

  • API_ 调用 _ 时间— 服务接收PutRecord或者DeleteRecord调用。如果使用托管引入(例如 Data Wrangler),则这是将数据写入离线存储时的时间戳。

  • 写入时间— 将数据写入脱机存储时的时间戳。可用于构建与时间旅行相关的查询。

  • 已删除False默认情况下。如果DeleteRecord被调用,则一个新的Record插入到RecordIdentifierValue并设置为True在脱机商店中。