

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# RCF 如何应用于检测异常
<a name="how-does-rcf-detect-anomalies"></a>

人类可以轻松地辨别与其余数据不同的数据点。通过构建决策树的“森林”，然后监控新数据点如何更改森林，RCF 做着相同的事情。

*异常*是一个数据点，会将您的注意力从正常点上移开，比如黄色花田里一朵红花的图像。此“注意力转移”编码为树（即 RCF 中的模型）的（预期）位置被输入点占据。理念是创建其中每个决策树均来自为训练算法而采样的数据分区的森林。在更技术的角度看，每个树为样本生成特定类型的二进制空间分区树。当 Amazon Quick Sight 对数据进行采样时，RCF 会为每个数据点分配一个异常分数。它为看似异常的数据点提供较高的分数。该分数与树中的点的最终深度大致成反比。Random Cut Forest 通过从组成的每棵树计算平均分数，并根据样本大小缩放结果，从而分配异常分数。

将聚合不同模型的投票或分数，因为每个模型本身是一种弱预测器。当数据点的分数与最近的分数明显不同时，Amazon Quick Sight 会将其识别为异常。划定为异常的内容取决于应用程序。

论文 [Random Cut Forest Based Anomaly Detection On Streams](http://proceedings.mlr.press/v48/guha16.pdf) 提供了此先进在线异常检测（时间序列异常检测）的多个示例。RCF 用于数据的连续分段或“瓦形”，其中直接分段中的数据充当最近分段的上下文。以前版本的RCF-based 异常检测算法得分很高。Amazon Quick Sight 中的算法还提供了当前扩展环境中异常的大致位置。此大致位置在检测异常存在延迟的场景中非常有用。出现延迟是因为任何算法都需要将“以前看到的偏差”描绘为“异常偏差”，这在一些时间后进行。