分析 Amazon Personalize 数据集中的数据质量和数量

将数据导入物品交互、用户或物品数据集后，您可以使用 Amazon Personalize 控制台来分析数据。您可以通过数据见解以及列和行统计信息来了解您的数据。您还可以了解可采取哪些操作来改善数据。这些操作可以帮助您满足 Amazon Personalize 资源要求，例如模型训练要求，也可以改进建议。

重要

您不能使用 Amazon Personalize 控制台来分析操作交互或操作数据集中的数据。

做出任何建议的更改后，您可以再次导入数据，看看是否解决了任何问题或改进了数据集统计信息。有关更新数据的信息，请参阅训练后更新数据集中的数据。

如果未看到任何见解，则说明您的数据符合 Amazon Personalize 数据预期。您可以分析域数据集组或自定义数据集组中的数据。

在生成见解和计算统计信息时，Amazon Personalize 会考虑来自非匿名用户的所有批量和流式传输数据。只有将匿名用户的事件与 userId 关联后，才会考虑此类事件。有关更多信息，请参阅为匿名用户记录事件。

分析数据所需的权限

如果您授予用户对 Amazon Personalize 的完全访问权限，则无需更改权限。如果您仅向用户授予在 Amazon Personalize 中执行任务所需的权限，则您的 Amazon Identity and Access Management (IAM) 策略必须包括以下其他数据洞察操作。

个性化：CreateDataInsightsJob
个性化：ListDataInsightsJobs
个性化：DescribeDataInsightsJob
个性化：GetDataInsights

数据见解

以下是您可以在 Amazon Personalize 中生成的可能的数据见解。

见解	操作	相关数据集
交互数据集只有 X 次交互。模型训练至少需要 1000 次交互。我们建议至少 5 万次交互。	在训练模型之前，导入 Y 条额外唯一交互记录。	物品交互
交互数据集只有 X 个具有两个或更多交互的唯一用户。模型训练需要至少 25 个这样的用户。我们建议至少 1000 个用户。	为其他 Y 个用户中的每个用户导入至少 2 条交互记录。	物品交互
物品数据集中有 X% 的物品在交互数据集中没有交互，因此可能不建议使用它们。	确保导入所有互动数据，并检查项目和互动数据集 IDs 之间是否不匹配。查看下面有关物品和交互数据集的数据集统计信息，确保导入的行数达到了预期的行数。如果您的使用案例或食谱使用浏览，请修改浏览配置，以建议更多没有交互数据的物品。	物品交互和物品
用户数据集中有 X% 的用户在交互数据集中没有交互。这些用户将收到热门物品的建议。	确保导入所有互动数据，并检查用户和互动数据集 IDs 之间是否存在不匹配的情况。查看下面有关用户和交互数据集的数据集统计信息，确保导入的行数达到了预期的行数。导入任何其他交互，以便更多用户拥有交互数据。	物品交互和用户
<用户或物品或交互> 数据集有 X% 的行缺失值。这可能会对建议产生负面影响。我们建议所有必填字段和可选字段的填写率至少为 70%。	导入其他完整记录，或者在没有不完整行的情况下再次导入数据，或者在将缺失值替换为替代数据（例如数值列的平均值或类别列的最常见值）的情况下再次导入数据。	任何
<datasetType>数据集中以下各列的完成度不到 70%：< ColumnName、 ColumnName... >。如果这些数据包含在训练中，可能会对建议产生负面影响。我们建议允许空值的列的填写率至少为 70%。	导入其他完整记录，或者在没有不完整行的情况下再次导入数据，或者在将缺失值替换为替代数据（例如数值列的平均值或类别列的最常见值）的情况下再次导入数据。	任何
以下（数字）列具有异常值：< ColumnName、 ColumnName... >。异常值不一定是问题，但有时会对建议产生负面影响。	使用下面的列统计信息，检查这些列的最小值和最大值是否符合您的预期。如果这些值出乎意料，请检查这些列中的数据是否存在不准确之处，并查看您的数据收集和数据处理是否存在问题。	任何
以下列有 1000 多个可能的类别：< ColumnName、 ColumnName... >。如果这些数据包含在训练中，则可能会对建议产生负面影响：<ColumnName， ColumnName... >。	检查您的分类数据是否存在问题，例如拼写差异导致的重复类别。纠正任何不准确之处并重新导入数据。	任何
以下文本元数据列的完成率不到 85%，不会用于模型训练：<ColumnName， ColumnName... >。	导入其他行或使用这些列的文本数据重新导入行。	物品
交互数据集有 10 多个唯一的事件类型，这将导致模型训练失败。	检查您的事件类型列中是否存在不准确之处，例如拼写差异导致的事件类型重复。删除不必要的事件类型并重新导入数据。	物品交互
交互数据集的所有记录都具有相同的时间戳。如果您使用 USER_SEGMENTATION 食谱，并且所有记录都具有相同的时间戳，则模型训练将失败。	检查您的数据是否存在时间戳问题，并将重复的时间戳替换为唯一的时间戳。	物品交互

查看数据集见解和统计信息

要在 Amazon Personalize 数据集中查看您数据的见解和统计信息，请在 Amazon Personalize 控制台中导航到您的数据集，然后选择“运行分析”。

注意

您必须先导入数据，Amazon Personalize 才能对其进行分析。有关更多信息，请参阅将训练数据导入 Amazon Personalize 数据集。

查看见解和统计信息

在https://console.aws.amazon.com/personalize/家中打开 Amazon Personalize 控制台并登录您的账户。
在数据集组页面，选择您的数据集组。
从导航窗格中，在数据集下选择数据分析。
在右上角，选择运行分析。此时，Amazon Personalize 开始分析您的数据。这一过程耗时最多 15 分钟。如果成功，结果将显示在此页面上。
在见解中，使用以下内容筛选显示的见解。
- 要查找包含特定语言的见解，请在查找见解中输入您的标准。在您输入文本时，列表会更新为仅包含在见解或建议操作中包含精确字符串的见解。
- 要按数据集类型筛选见解，请将所有数据集更改为特定数据集类型。列表将更新为仅包含与此数据集相关的见解。
要查看数据集的数据集统计信息，请执行以下操作。
- 要查看有关数据集的一般详细信息和统计信息（例如交互数据集中的行数、唯一用户数和唯一物品数），请展开该数据集对应的部分。
- 要查看某列的详细统计信息，请展开数据集部分，选择列级别统计信息，然后选择该列对应的单选按钮。
更正数据中的所有问题，重新导入，然后运行另一次分析进行验证。有关再次导入数据的更多信息，请参阅训练后更新数据集中的数据。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

单独导入操作

域推荐器