IP 见解的工作原理 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

IP 见解的工作原理

Amazon SageMaker IP 见解是一种自主型算法,它以(实体、IPv4 地址)对的形式使用观察到的数据,这些对将实体与 IP 地址关联。IP 见解通过学习实体和 IP 地址的潜在向量表示,确定实体使用特定 IP 地址的可能性。然后,这两个表示形式之间的距离可以充当此关联的可能性的代理。

IP 见解算法使用神经网络来了解实体和 IP 地址的潜在向量表示。实体首先被哈希处理到大型但固定的哈希空间,然后使用简单的嵌入层进行编码。可以将用户名或账户 IDs 等字符串直接注入到显示在日志文件中的 IP Insights 中。您无需预处理实体标识符的数据。在训练和推理期间,您可以提供实体作为任意字符串值。哈希大小应配置一个足够大的值,以确保在将不同实体映射到同一潜在向量时发生的碰撞数仍然不重要。有关如何选择适当的哈希大小的更多信息,请参阅用于大规模多任务学习的功能哈希。另一方面,IP Insights 使用一个特殊设计的编码器网络,通过利用 IP 地址的前缀结构来唯一地表示每个可能的 IPv4 地址。

在训练期间,IP 见解通过随机配对实体和 IP 地址来生成负样本。这些负样本表示实际发生数据的可能性较小。该模型经过训练,可以区分在训练数据中观察到的正样本与这些生成的负样本。更具体地说,该模型经过训练,以最大限度减少交叉纪元,也称为日志损失,定义如下:


                包含日志丢失的等式的图像。

yn 是指示样本是否来自管理观察到的数据的实际分布 (yn=1 或从生成负样本 (y) 的分配n=0)。pn 是样本来自实际分布的概率,由模型预测。

生成负采样是一个重要的过程,用于实现观察到的数据的准确模型。例如,如果负采样的 IP 地址均为 10.0.0.0,则模型微不足道学习区分负采样,并且无法准确描述实际观察到的数据集。为了使负采样更加真实,IP 见解通过从训练数据中随机生成 IP 地址并随机选择 IP 地址来生成负采样。您可以使用 random_negative_sampling_rateshuffled_negative_sampling_rate 超参数配置负采样的类型以及生成负采样的速率。

给定第 n 个(实体,IP 地址对),IP 见解模型将输出分数n ,指示实体与 IP 地址的兼容性。此分数对应于来自实际分布的给定(实体、IP 地址)对的日志奇数比率,而不是来自负分布。它的定义如下所示:


                包含分数的等式、对数奇数比的图像。

分数实际上是第 n 个实体向量表示形式与 IP 地址之间相似性的度量。它可以被解释为在实际观察此事件的可能性高于在随机生成的数据集中观察此事件的可能性。在训练期间,算法使用此分数来计算样本来自实际分布的概率估计值,pn,用于跨正体最小化,其中:


                显示样本来自实际分布的概率等式的图像。