IP 见解的工作原理 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

IP 见解的工作原理

Amazon SageMaker IP 见解是一种自主算法,它以(实体、IPv4 地址)对的形式使用观察到的数据,这些配对将实体与 IP 地址相关联。IP 洞察通过学习实体和 IP 地址的潜在矢量表示来确定实体使用特定 IP 地址的可能性。然后,这两种制图表达之间的距离可以作为代理此关联的可能性。

IP 见解算法使用神经网络来了解实体和 IP 地址的潜在矢量表示形式。实体首先散列到一个大但固定的散列空间,然后由一个简单的嵌入层进行编码。用户名或帐户 ID 等字符串可以直接输入到 IP Insights 中,因为它们出现在日志文件中。您不需要预处理实体标识符的数据。您可以在训练和推理期间将实体作为任意字符串值提供。哈希大小应配置一个足够高的值,以确保碰撞(当不同的实体映射到相同的潜在向量时发生)仍然微不足道。有关如何选择适当的散列大小的详细信息,请参阅大规模多任务学习的特征散列. 另一方面,为了表示 IP 地址,IP Insights 使用专门设计的编码器网络,通过利用 IP 地址的前缀结构,唯一地表示每个可能的 IPv4 地址。

在培训过程中,IP 见解通过随机配对实体和 IP 地址,自动生成负样本。这些负样本表示实际不太可能出现的数据。该模型经过训练,以区分训练数据中观察到的阳性样本和这些产生的阴性样本。更具体地说,对模型进行了训练以最大限度地减少交叉熵,也称为记录丢失,定义如下:


                包含日志丢失的等式的图像。

yn是指示样本是否来自管理观测数据的实际分布的标签(yn=1)或产生负样本的分布(yn=0)。n是样本来自实际分布的概率,如模型所预测的那样。

生成负采样是一个重要的过程,用于实现观察到的数据的准确模型。如果负样本极不可能,例如,如果负样本中的所有 IP 地址均为 10.0.0.0,则模型会学会区分负样本,并且无法准确表征实际观测到的数据集。为了使负面样本更加现实,IP Insights 通过随机生成 IP 地址和从训练数据中随机选择 IP 地址来生成负样本。您可以配置负采样类型和负样本生成率的速率,使用random_negative_sampling_rateshuffled_negative_sampling_rate超参数。

给定第 n 个(实体,IP 地址对),IP 见解模型会输出得分, Sn,表示实体与 IP 地址的兼容程度。该分数对应于来自实际分布的给定(实体,IP 地址)的对数赔率比,与来自负分布的对比。它的定义如下所示:


                包含得分的等式的图像,即日志赔率比。

该分数基本上是衡量第 n 个实体和 IP 地址的矢量表示之间相似性的度量。它可以被解释为与随机生成的数据集相比,在现实中观察此事件的可能性更大。在训练过程中,该算法使用此分数来计算来自实际分布 p 样本概率的估计值n,用于交叉熵最小化,其中:


                显示样本来自实际分布的概率方程的图像。