本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 A/B 测试衡量建议影响
执行 A/B 测试包括运行具有多种变体的实验和比较结果。使用 Amazon Personalize 建议执行 A/B 测试需要向不同用户组展示不同类型的建议,然后比较结果。您可以使用 A/B 测试来帮助比较和评估不同的建议策略,并衡量建议的影响。
例如,您可以使用 A/B 测试来查看 Amazon Personalize 建议是否提高了点击率。要测试该场景,您可以向一组用户展示非个性化的建议,例如特色产品。您可以向另一组展示由 Amazon Personalize 生成的个性化建议。当您的客户与物品交互时,您可以记录结果,并查看哪种策略的点击率最高。
使用 Amazon Personalize 建议执行 A/B 测试的工作流程如下所示:
-
计划您的实验 - 定义可量化的假设,确定业务目标,定义实验变体,并确定实验时间框架。
-
拆分用户 - 将用户分成两组或多个组,包括一个对照组和一个或多个实验组。
-
运行您的实验 - 向实验组中的用户显示修改后的建议。向对照组中的用户显示未做任何更改的建议。记录他们与建议的交互以跟踪结果。
-
评估结果 - 分析实验结果,以确定修改是否对实验组产生了统计学上的显著差异。
你可以使用 Amazon CloudWatch Evicently 对 Amazon Personalize 推荐进行 A/B 测试。使用 CloudWatch Evidently,您可以定义实验、跟踪关键绩效指标 (KPI)、将推荐请求流量路由到相关的 Amazon Personalize 资源,以及评估实验结果。有关更多信息,请参阅 使用 CloudWatch Eviently 进行 A/B 测试。
A/B 测试最佳实践
使用以下最佳实践,可帮助您设计和维护 Amazon Personalize 建议的 A/B 测试。
-
确定可量化的业务目标。验证您要比较的不同建议是否与此业务目标一致,并且与不同的或不可量化的目标无关。
-
定义与您的业务目标一致的可量化的假设。例如,您可能会预测,您自己的定制内容的推广将使这些物品的点击量增加 20%。您的假设决定了您对实验组所做的修改。
-
定义与您的假设相关的关键绩效指标 (KPI)。您可以使用 KPI 来衡量实验结果。这些可能是以下内容:
-
点击率
-
观看时间
-
总价格
-
-
根据您的假设,验证实验中的用户总数是否够大,足以得出统计学上显著的结果。
-
在开始实验之前,定义流量分流策略。避免在实验运行时更改流量分流。
-
除了与实验相关的修改(例如模型)外,实验组和对照组的应用程序或网站的用户体验应保持一致。用户体验的变化(例如 UI 或延迟)可能会产生误导性结果。
-
控制外部因素,例如节假日、持续的营销活动和浏览器限制。这些外部因素可能会产生误导性结果。
-
除非与您的假设或业务需求直接相关,否则避免更改 Amazon Personalize 建议。诸如应用筛选器或手动更改顺序之类的更改可能会产生误导性结果。
-
评估结果时,确保在得出结论之前结果具有统计学意义。行业标准的显著性水平为 5%。有关统计显著性的更多信息,请参阅统计显著性复习
。