IP 见解如何运作 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

IP 见解如何运作

Amazon SageMaker IP 见解是一种自主算法,它以(实体、IPv4 地址)对的形式使用观察到的数据,这些配对将实体与 IP 地址相关联。IP Insights 通过学习实体和 IP 地址的潜在矢量表示法来确定实体使用特定 IP 地址的可能性。然后,这两种表示之间的距离可以作为代理这种关联的可能性。

IP Insights 算法使用神经网络来学习实体和 IP 地址的潜在矢量表示形式。实体首先被哈希处理为大但固定的哈希空间,然后由简单的嵌入层进行编码。当用户名或帐户 ID 等字符串出现在日志文件中时,可以直接输入 IP Insights。您不需要预处理实体标识符的数据。在训练和推理期间,您可以将实体作为任意字符串值提供。哈希大小应配置一个足够高的值,以确保碰撞,当不同的实体映射到同一潜伏向量时,发生这种情况仍然微不足道。有关如何选择适当的哈希大小的详细信息,请参阅适用于大规模多任务学习的功能哈希. 另一方面,为了表示 IP 地址,IP Insights 使用专门设计的编码器网络,通过利用 IP 地址的前缀结构来唯一表示每个可能的 IPv4 地址。

在训练期间,IP Insights 通过随机配对实体和 IP 地址自动生成负面样本。这些负样本表示实际不太可能出现的数据。该模型经过训练以区分训练数据中观察到的阳性样本和这些生成的阴性样本。更具体地说,模型经过训练以尽量减少交叉熵,也称为记录丢失,定义如下:


                包含日志丢失的等式的图像。

yn是指示样本是否来自管理观测数据的实际分布(y)的标签n=1) 或生成负样本的分布 (y)n=0)。pn是模型所预测的样本来自实际分布的概率。

生成负采样是一个重要的过程,用于实现观察到的数据的准确模型。如果负样本极不可能出现,例如,如果负样本中的所有 IP 地址都是 10.0.0.0,那么模型就可以轻松地学会区分负面样本,并且无法准确地描述实际观察到的数据集。为了保持负面样本更加逼真,IP Insights 通过随机生成 IP 地址和从训练数据中随机选择 IP 地址来生成负面样本。您可以配置负采样的类型和生成负样本的速率random_negative_sampling_rateshuffled_negative_sampling_rate超参数。

给定 n 个(实体、IP 地址对),IP Insights 模型会输出分数,Sn,表示实体与 IP 地址的兼容程度。该分数与来自实际分配的货币对的给定(实体、IP 地址)的对数赔率比相对应于负分配。它的定义如下:


                包含分数的等式的图像,对数比率。

该分数基本上是衡量第 n 个实体的矢量表示与 IP 地址之间的相似性的一种衡量标准。它可以解释为在现实中观察这个事件的可能性比在随机生成的数据集中更有可能性。在训练过程中,算法使用此分数来计算来自实际分布的样本概率的估计值,pn,在交叉熵最小化中使用,其中:


                显示样本来自实际分布的概率等式的图像。