统计数据的架构(statistics.json 文件) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

统计数据的架构(statistics.json 文件)

statistics.json 文件中定义的架构指定要为基准和捕获的数据计算的统计参数。它还将存储桶配置为由 KLL(一个带有延迟压缩方案的非常紧凑的分位数草图)使用。

{ "version": 0, # dataset level stats "dataset": { "item_count": number }, # feature level stats "features": [ { "name": "feature-name", "inferred_type": "Fractional" | "Integral", "numerical_statistics": { "common": { "num_present": number, "num_missing": number }, "mean": number, "sum": number, "std_dev": number, "min": number, "max": number, "distribution": { "kll": { "buckets": [ { "lower_bound": number, "upper_bound": number, "count": number } ], "sketch": { "parameters": { "c": number, "k": number }, "data": [ [ num, num, num, num ], [ num, num ][ num, num ] ] }#sketch }#KLL }#distribution }#num_stats }, { "name": "feature-name", "inferred_type": "String", "string_statistics": { "common": { "num_present": number, "num_missing": number }, "distinct_count": number, "distribution": { "categorical": { "buckets": [ { "value": "string", "count": number } ] } } }, #provision for custom stats } ] }
Notes
  • 在以后的可视化更改中,SageMaker 将识别指定的指标。如果需要,容器可以发出更多的指标。

  • KLL 草图是公认的草图。自定义容器可以编写自己的表示形式,但 SageMaker 无法在可视化中识别它。

  • 默认情况下,分配将具体化到 10 个存储桶中。无法更改此设置。