Amazon Simple Storage Service
开发人员指南 (API Version 2006-03-01)
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。点 击 Getting Started with Amazon AWS to see specific differences applicable to the China (Beijing) Region.

Amazon S3 分析 - 存储类分析

通过使用 Amazon S3 分析存储类分析,您可以分析存储访问模式以帮助您决定何时将正确的数据转换为正确的存储类。此新的 Amazon S3 分析功能可观察数据访问模式以帮助您确定何时将不常访问的 STANDARD 存储转换为 STANDARD_IA (IA,适用于不常访问) 存储类。有关存储类别的更多信息,请参阅 存储类别

在存储类分析观察一组筛选出的数据的不常访问模式一段时间后,您可以使用分析结果来帮助改进您的生命周期策略。您可以将存储类分析配置为分析存储桶中的所有对象。或者,也可以配置筛选条件以按通用前缀 (即,名称以通用字符串开头的对象)、对象标签或前缀和标签的组合对对象进行分组以便进行分析。您很有可能会发现,按对象组进行筛选是从存储类分析获益的最佳方式。

每个存储桶可具有多个存储类分析筛选条件 (最多 1,000 个),并且将收到针对每个筛选条件的单独分析。利用多个筛选配置,您可以分析特定对象组以改进将对象转换为 STANDARD_IA 的生命周期策略。

存储类分析显示 Amazon S3 控制台中的存储使用率可视化项,这些可视化项每天将进行更新。存储使用率数据也可以每天导出到 S3 存储桶中的文件。您可以在电子表格应用程序中打开导出的使用率报告文件,或者通过您选择的商业智能工具 (如 Amazon QuickSight) 使用该文件。

如何设置存储类分析?

通过配置要分析的对象数据来设置存储类分析。您可将存储类分析配置为执行以下操作:

  • 分析存储桶的全部内容。

    您将收到针对存储桶中所有对象的分析。

  • 分析按前缀和标签分组的对象。

    您可以配置按前缀、对象标签或前缀和标签的组合对对象进行分组以进行分析的筛选条件。您将收到针对配置的每个筛选条件的单独分析。每个存储桶可具有多个筛选配置 (最多 1,000 个)。

  • 导出分析数据。

    当您为存储桶或筛选条件配置存储类分析时,可以选择每天将分析数据导出到一个文件。当天的分析将添加到该文件以形成针对配置的筛选条件的历史分析日志。该文件会在所选目标上每天进行更新。选择要导出的数据时,指定写入文件的目标存储桶和可选目标前缀。

您可以使用 Amazon S3 控制台、REST API、AWS CLI 或 AWS 开发工具包配置存储类分析。

如何使用存储类分析?

您使用存储类分析观察数据访问模式一段时间来收集信息,以帮助您改进 STANDARD_IA 存储的生命周期管理。配置一个筛选条件后,您首先会在 Amazon S3 控制台中看到 24 到 48 小时内基于该筛选条件的数据分析。但是,存储类分析会观察筛选的数据集的访问模式 30 天或更长时间,以便在提供结果前收集用于分析的信息。分析会在初始结果后继续运行,并在访问模式发生更改时更新结果。

当您首次配置筛选条件时,Amazon S3 控制台会显示一条与以下内容类似的消息。

 屏幕截图。

存储类分析观察筛选的对象数据集的访问模式 30 天或更长时间,以便收集足量信息来进行分析。在存储类分析收集足量信息后,您将在 Amazon S3 控制台中看到一条与以下内容类似的消息。

 屏幕截图。

对不常访问的对象执行分析时,存储类分析基于期限查看已分组的筛选的对象集,因为这些对象已上传到 Amazon S3。存储类分析通过查看筛选的数据集的以下因素来确定是否不常访问期限组:

  • STANDARD 存储类中的大于 128K 的对象。

  • 每个期限组内的平均总存储量。

  • 每个期限组传出的平均字节数 (非频率)。

  • 分析导出数据仅包含与存储类分析有关的数据请求。这可能导致相对于存储指标所示或您自己内部系统的跟踪结果,请求数量以及上传和请求总字节数存在差异。

  • 失败的 GET 和 PUT 请求不计入分析。但是,您会在存储指标中看到失败的请求。

我检索了多少我的存储空间?

Amazon S3 控制台用图表表示观察期间检索到的筛选的数据集中的存储空间量,如以下示例所示。

 屏幕截图。

我检索了多少百分比的我的存储空间?

Amazon S3 控制台也用图表表示观察期间检索到的筛选的数据集中的存储空间百分比,如以下示例所示。

 屏幕截图。

如本主题中先前所述,当您对不常访问的对象执行分析时,存储类分析会基于期限查看已分组的筛选的对象集,因为这些对象已上传到 Amazon S3。存储类分析使用以下预定义的对象期限组:

  • 0-29 天的 Amazon S3 对象

  • 30-44 天的 Amazon S3 对象

  • 45-59 天的 Amazon S3 对象

  • 60-74 天的 Amazon S3 对象

  • 75-89 天的 Amazon S3 对象

  • 90-179 天的 Amazon S3 对象

  • 180-364 天的 Amazon S3 对象

  • 365 天及更长时间的 Amazon S3 对象

通常大约需要 30 天来观察访问模式以收集足够信息来获得分析结果。根据您的数据的独特访问模式,这可能需要 30 天以上的时间。但在配置一个筛选条件后,您首先会在 Amazon S3 控制台中看到 24 到 48 小时内基于该筛选条件的数据分析。您可以查看 Amazon S3 控制台中每天按对象期限组划分的对象访问的分析。

我的多少存储空间是不常访问的?

Amazon S3 控制台显示按预定义的对象期限组分组的访问模式,如以下示例所示。

 屏幕截图。

每个期限组底部显示的经常访问不常访问的文本采用的是与正在准备的生命周期策略推荐相同的逻辑。无论当前的累计访问率如何,在生命周期策略的推荐期限就绪后 (RecommendedObjectAge),所有早于推荐期限的期限层均被标记为不常访问。此文本仅作为直观辅助,用于在生命周期创建过程中为您提供帮助。

如何导出存储类分析数据?

您可以选择使存储类分析将分析报告导出到逗号分隔值 (CSV) 平面文件。报告每天都会更新且基于您配置的对象期限组筛选条件。使用 Amazon S3 控制台时,您可以在创建筛选条件时选择导出报告选项。选择要导出的数据时,指定写入文件的目标存储桶和可选目标前缀。您可以将数据导出到不同账户中的目标存储桶。目标存储桶必须位于与您配置为进行分析的存储桶相同的区域中。

您必须在目标存储桶上创建存储桶策略以向 Amazon S3 授予验证哪些 AWS 账户拥有存储桶以及将对象写入定义位置的存储桶中的权限。有关策略示例,请参阅向 Amazon S3 清单和 Amazon S3 分析功能授予权限

在配置存储类分析报告后,您将在 24 小时后开始获得每日导出报告。之后,Amazon S3 会继续监控并提供每日导出。

您可以在电子表格应用程序中打开此 CSV 文件,或将此文件导入其他应用程序中,如 Amazon QuickSight。有关将 Amazon S3 文件用于 Amazon QuickSight 的信息,请参阅 Amazon QuickSight 用户指南 中的使用 Amazon S3 文件创建数据集

导出的文件中的数据在对象期限组内按日期进行排序,如以下示例所示。

 屏幕截图。
 屏幕截图。

报告结束时,对象期限组为 ALL。ALL 行包含当天所有期限组的累计总数。如果存储类为 STANDARD,则 ALL 行还包含 ObjectAgeForSIATransitionRecommendedObjectAgeForSIATransition 列的数据,如以下示例所示。

 屏幕截图。

下一部分介绍报告中使用的列。

导出的文件布局

下表描述导出的文件的布局。

如果看到表右上角处有扩展箭头 (),则您可以在新窗口中打开该表。要关闭窗口,请选择右下角处的关闭按钮 (X)。

Amazon S3 存储类分析导出文件布局

列名称 维度/指标 DataType 描述
日期 维度 字符串 记录处理日期。格式为 MM-DD-YYYY。
ConfigId 维度 字符串

添加筛选配置时输入为筛选条件名称的值。

筛选 维度 字符串

添加筛选条件配置时配置的完整筛选条件值。

StorageClass 维度 字符串

数据的存储类。

ObjectAge 维度 字符串

筛选条件中对象的期限组。除了适用于大小 128KB 以上的对象的 8 个不同的期限组 (0-29 天、30-44 天、45-59 天、60-74 天、75-89 天、90-179 天、180-364 天、365 天以上) 以外,还有一个额外值为“ALL”,该值代表所有期限组。

ObjectCount 指标 整数

为期限组中的每个存储类计算出的当天总对象数。对于 AgeGroup='ALL',该值为当天所有期限组的总对象计数。

DataUploaded_MB 指标 数字

为期限组中的每个存储类上传的当天总数据量 (MB)。对于 AgeGroup='ALL',该值为当天所有期限组的上传数据总数 (MB)。(请注意,由于分段上传请求目前没有存储类信息,因此您将不会在导出数据中看到分段对象上传活动。)

Storage_MB 指标 数字

期限组中的每个存储类的当天总存储空间 (MB)。对于 AgeGroup='ALL',该值为当天所有期限组的总存储空间量 (MB)。

DataRetrieved_MB 指标 数字

期限组中当天通过 GET 请求为每个存储类传出的数据 (MB)。对于 AgeGroup='ALL',该值为所有期限组当天通过 GET 请求传出的总数据量 (MB)。

GetRequestCount 指标 整数

为期限组中的每个存储类当天发出的 GET 请求数。对于 AgeGroup='ALL',该值表示当天所有期限组的 GET 请求总数。

CumulativeAccessRatio 指标 数字

累计访问率。此比率代表任何特定期限组上的使用/字节热度,以帮助确定某个期限组是否有资格转换为 STANDARD_IA。

ObjectAgeForSIATransition 指标 整数 (天)

此值仅在 AgeGroup=’ALL’ 且存储类 = STANDARD 时存在。它表示观察到的到 STANDARD_IA 的转换的期限。

RecommendedObjectAgeForSIATransition 指标 整数 (天)

此值仅在 AgeGroup=’ALL’ 且存储类 = STANDARD 时存在。它表示在 ObjectAgeForSIATransition 稳定后考虑到 STANDARD_IA 的转换的对象期限 (天)。

下面是用于存储清单的 REST 操作。