使用 A/B 测试衡量建议影响 - Amazon Personalize
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 A/B 测试衡量建议影响

执行 A/B 测试包括运行具有多种变体的实验和比较结果。使用 Amazon Personalize 建议执行 A/B 测试需要向不同用户组展示不同类型的建议,然后比较结果。您可以使用 A/B 测试来帮助比较和评估不同的建议策略,并衡量建议的影响。

例如,您可以使用 A/B 测试来查看 Amazon Personalize 建议是否提高了点击率。要测试该场景,您可以向一组用户展示非个性化的建议,例如特色产品。您可以向另一组展示由 Amazon Personalize 生成的个性化建议。当您的客户与物品交互时,您可以记录结果,并查看哪种策略的点击率最高。

使用 Amazon Personalize 建议执行 A/B 测试的工作流程如下所示:

  1. 计划您的实验 - 定义可量化的假设,确定业务目标,定义实验变体,并确定实验时间框架。

  2. 拆分用户 - 将用户分成两组或多个组,包括一个对照组和一个或多个实验组。

  3. 运行您的实验 - 向实验组中的用户显示修改后的建议。向对照组中的用户显示未做任何更改的建议。记录他们与建议的交互以跟踪结果。

  4. 评估结果 - 分析实验结果,以确定修改是否对实验组产生了统计学上的显著差异。

您可以使用 Amazon CloudWatch Evidently 通过 Amazon Personalize 建议执行 A/B 测试。借助 CloudWatch Evidently,您可以定义实验、跟踪关键绩效指标 (KPI)、将建议请求流量路由到相关的 Amazon Personalize 资源,并评估实验结果。有关更多信息,请参阅通过 CloudWatch Evidently 进行 A/B 测试

A/B 测试最佳实践

使用以下最佳实践,可帮助您设计和维护 Amazon Personalize 建议的 A/B 测试。

  • 确定可量化的业务目标。验证您要比较的不同建议是否与此业务目标一致,并且与不同的或不可量化的目标无关。

  • 定义与您的业务目标一致的可量化的假设。例如,您可能会预测,您自己的定制内容的推广将使这些物品的点击量增加 20%。您的假设决定了您对实验组所做的修改。

  • 定义与您的假设相关的关键绩效指标 (KPI)。您可以使用 KPI 来衡量实验结果。这些可能是以下内容:

    • 点击率

    • 观看时间

    • 总价格

  • 根据您的假设,验证实验中的用户总数是否够大,足以得出统计学上显著的结果。

  • 在开始实验之前,定义流量分流策略。避免在实验运行时更改流量分流。

  • 除了与实验相关的修改(例如模型)外,实验组和对照组的应用程序或网站的用户体验应保持一致。用户体验的变化(例如 UI 或延迟)可能会产生误导性结果。

  • 控制外部因素,例如节假日、持续的营销活动和浏览器限制。这些外部因素可能会产生误导性结果。

  • 除非与您的假设或业务需求直接相关,否则避免更改 Amazon Personalize 建议。诸如应用筛选器或手动更改顺序之类的更改可能会产生误导性结果。

  • 评估结果时,确保在得出结论之前结果具有统计学意义。行业标准的显著性水平为 5%。有关统计显著性的更多信息,请参阅统计显著性复习