Amazon S3 分析 – 存储类分析 - Amazon Simple Storage Service
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon S3 分析 – 存储类分析

通过使用 Amazon S3 分析存储类分析,您可以分析存储访问模式以帮助您决定何时将正确的数据转换为正确的存储类。这个新的 Amazon S3 分析功能可观察数据访问模式以帮助您确定何时将不常访问的 STANDARD 存储转换为 STANDARD_IA(IA,适用于不频繁访问)存储类。有关存储类的更多信息,请参阅 使用 Amazon S3 存储类

在存储类分析在一段时间内观察到一组筛选出的数据的不常访问模式后,您可以使用分析结果来帮助改进您的生命周期配置。您可以将存储类分析配置为分析存储桶中的所有对象。或者,也可以配置筛选条件以按通用前缀 (即,名称以通用字符串开头的对象)、对象标签或前缀和标签的组合对对象进行分组以便进行分析。您很有可能会发现,按对象组进行筛选是从存储类分析获益的最佳方式。

重要

存储类分析仅针对标准类到标准 IA 类提供建议。

每个存储桶可具有多个存储类分析筛选条件 (最多 1,000 个),并且将收到针对每个筛选条件的单独分析。利用多个筛选配置,您可以分析特定对象组,以改进将对象转换为 STANDARD_IA 的生命周期配置。

存储类分析提供了 Amazon S3 控制台中的存储使用率可视化项,这些可视化项每天将进行更新。您也可以将此类日常使用数据导出到 S3 存储桶,并在电子表格应用程序中或使用商业智能工具(如 Amazon QuickSight)查看它们。

存储类分析会产生相关的成本。有关定价信息,请参阅管理和复制 Amazon S3 定价

如何设置存储类分析?

通过配置要分析的对象数据来设置存储类分析。您可将存储类分析配置为执行以下操作:

  • 分析存储桶的全部内容。

    您将收到针对存储桶中所有对象的分析。

  • 分析按前缀和标签分组的对象。

    您可以配置按前缀、对象标签或前缀和标签的组合对对象进行分组以进行分析的筛选条件。您将收到针对配置的每个筛选条件的单独分析。每个存储桶可具有多个筛选配置(最多 1000 个)。

  • 导出分析数据。

    当您为存储桶或筛选条件配置存储类分析时,可以选择每天将分析数据导出到一个文件。当天的分析将添加到该文件以形成针对配置的筛选条件的历史分析日志。该文件会在所选目标上每天进行更新。选择要导出的数据时,指定写入文件的目标存储桶和可选目标前缀。

您可以使用 Amazon S3 控制台、REST API、Amazon CLI 或 Amazon SDK 配置存储类分析。

如何使用存储类分析?

您使用存储类分析观察数据访问模式一段时间来收集信息,以帮助您改进 STANDARD_IA 存储的生命周期管理。配置一个筛选条件后,您首先会在 Amazon S3 控制台中看到 24 到 48 小时内基于该筛选条件的数据分析。但是,存储类分析会观察筛选的数据集的访问模式 30 天或更长时间,以便在提供结果前收集用于分析的信息。分析会在初始结果后继续运行,并在访问模式发生更改时更新结果。

首次配置筛选条件时,Amazon S3 控制台可能需要一些时间来分析您的数据。

存储类分析观察筛选的对象数据集的访问模式 30 天或更长时间,以便收集足量信息来进行分析。在存储类分析收集足量信息后,您将在 Amazon S3 控制台中看到一条表示分析已完成的消息。

对不常访问的对象执行分析时,存储类分析基于期限查看已分组的筛选的对象集,因为这些对象已上传到 Amazon S3。存储类分析通过查看筛选的数据集的以下因素来确定是否不常访问期限组:

  • STANDARD 存储类中大于 128 KB 的对象。

  • 每个期限组内的平均总存储量。

  • 每个期限组传出的平均字节数 (非频率)。

  • 分析导出数据仅包含与存储类分析有关的数据请求。这可能导致相对于存储指标所示或您自己内部系统的跟踪结果,请求数量以及上传和请求总字节数存在差异。

  • 失败的 GET 和 PUT 请求不计入分析。但是,您会在存储指标中看到失败的请求。

我检索了多少我的存储空间?

Amazon S3 控制台用图表表示观察期间检索到的筛选的数据集中的存储空间量。

我检索了多少百分比的我的存储空间?

Amazon S3 控制台也用图表表示观察期间检索到的筛选的数据集中的存储空间百分比。

如本主题中先前所述,当您对不常访问的对象执行分析时,存储类分析会基于期限查看已分组的筛选的对象集,因为这些对象已上传到 Amazon S3。存储类分析使用以下预定义的对象期限组:

  • 不超过 15 天的 Amazon S3 对象

  • 15-29 天的 Amazon S3 对象

  • 30-44 天的 Amazon S3 对象

  • 45-59 天的 Amazon S3 对象

  • 60-74 天的 Amazon S3 对象

  • 75-89 天的 Amazon S3 对象

  • 90-119 天的 Amazon S3 对象

  • 120-149 天的 Amazon S3 对象

  • 150-179 天的 Amazon S3 对象

  • 180-364 天的 Amazon S3 对象

  • 365-729 天的 Amazon S3 对象

  • 730 天及更长时间的 Amazon S3 对象

通常大约需要 30 天来观察访问模式以收集足够信息来获得分析结果。根据您的数据的独特访问模式,这可能需要 30 天以上的时间。但在配置一个筛选条件后,您首先会在 Amazon S3 控制台中看到 24 到 48 小时内基于该筛选条件的数据分析。您可以查看 Amazon S3 控制台中每天按对象期限组划分的对象访问的分析。

我的多少存储空间是不常访问的?

Amazon S3 控制台显示按预定义的对象期限组分组的访问模式。显示的 Frequently accessed (经常访问)Infrequently accessed (不经常访问) 文本旨在以直观的方式帮助您完成生命周期创建过程。

如何导出存储类分析数据?

您可以选择使存储类分析将分析报告导出到逗号分隔值 (CSV) 平面文件。报告每天都会更新且基于您配置的对象期限组筛选条件。使用 Amazon S3 控制台时,您可以在创建筛选条件时选择导出报告选项。选择要导出的数据时,指定写入文件的目标存储桶和可选目标前缀。您可以将数据导出到不同账户中的目标存储桶。目标存储桶必须位于与您配置为进行分析的存储桶相同的区域中。

您必须在目标存储桶上创建存储桶策略以向 Amazon S3 授予验证哪些 Amazon Web Services 账户 拥有存储桶以及将对象写入定义位置的存储桶中的权限。有关策略示例,请参阅 向 S3 清单和 S3 分析功能授予权限

在配置存储类分析报告后,您将在 24 小时后开始获得每日导出报告。之后,Amazon S3 会继续监控并提供每日导出。

您可以在电子表格应用程序中打开此 CSV 文件,或将此文件导入其他应用程序中,如 Amazon QuickSight。有关将 Amazon S3 文件用于 Amazon QuickSight 的信息,请参阅《Amazon QuickSight 用户指南》中的使用 Amazon S3 文件创建数据集

导出的文件中的数据在对象期限组内按日期进行排序,如以下示例所示。如果存储类为 STANDARD,则行还包含 ObjectAgeForSIATransitionRecommendedObjectAgeForSIATransition 列的数据。


        屏幕截图。

报告结束时,给出的对象期限组为 ALL。ALL 行包含当天所有使用期限组的累计总数,包括小于 128 KB 的对象。


        屏幕截图。

下一部分介绍报告中使用的列。

导出的文件布局

下表描述导出的文件的布局。

使用滚动条查看表的其余部分。

Amazon S3 存储类分析导出文件布局
列名称 维度/指标 DataType 说明
日期 维度 字符串 记录处理日期。格式为 MM-DD-YYYY。
ConfigId 维度 字符串

添加筛选配置时输入为筛选条件名称的值。

筛选 维度 字符串

添加筛选条件配置时配置的完整筛选条件值。

StorageClass 维度 字符串

数据的存储类。

ObjectAge 维度 字符串

筛选条件中对象的期限组。除了适用于 128KB+ 对象的 12 个不同的使用期限组 (0-14 天、15-29 天、30-44 天、45-59 天、60-74 天、75-89 天、90-119 天、120-149 天、150-179 天、180-364 天、365-729 天、730 天以上) 之外,还有一个值为 'ALL',代表所有使用期限组。

ObjectCount 指标 整数

为期限组中的每个存储类计算出的当天总对象数。此值仅针对 AgeGroup='ALL' 进行填充,并显示当天所有年龄组的总对象计数。

DataUploaded_MB 指标 数字

为期限组中的每个存储类上传的当天总数据量 (MB)。此值仅针对 AgeGroup='ALL' 进行填充,并显示当天所有年龄组的总上传计数(以 MB 为单位)。(请注意,由于分段上传请求目前没有存储类信息,因此您将不会在导出数据中看到分段对象上传活动。)

Storage_MB 指标 数字

期限组中的每个存储类的当天总存储空间 (MB)。对于 AgeGroup='ALL',该值为当天所有期限组的总存储空间量 (MB)。

DataRetrieved_MB 指标 数字

期限组中当天通过 GET 请求为每个存储类传出的数据 (MB)。对于 AgeGroup='ALL',该值为所有期限组当天通过 GET 请求传出的总数据量 (MB)。

GetRequestCount 指标 整数

为期限组中的每个存储类当天发出的 GET 和 PUT 请求数。对于 AgeGroup='ALL',该值表示当天所有期限组的 GET 和 PUT 请求总数。

注意

GetRequestCount 列标签错误,还包括每个存储类发出的 PUT 请求数。

CumulativeAccessRatio 指标 数字

累计访问率。此比率代表任何特定期限组上的使用/字节热度,以帮助确定某个期限组是否有资格转换为 STANDARD_IA。

ObjectAgeForSIATransition 指标 整数 (天)

此值仅在 AgeGroup=’ALL’ 且存储类 = STANDARD 时存在。它表示观察到的到 STANDARD_IA 的转换的期限。

RecommendedObjectAgeForSIATransition 指标 整数 (天)

此值仅在 AgeGroup=’ALL’ 且存储类 = STANDARD 时存在。它表示在 ObjectAgeForSIATransition 稳定后考虑到 STANDARD_IA 的转换的对象期限 (天)。