IP 见解 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

IP 见解

亚马逊 SageMaker IP Insights 是一种无监督学习算法,用于学习 IPv4 地址的使用模式。它旨在捕获 IPv4 地址与各种实体(例如用户 ID 或账号)之间的关联。例如,您可以使用它来识别试图从异常 IP 地址登录 Web 服务的用户。或者,您可以使用它来识别尝试从异常 IP 地址创建计算资源的账户。经过训练的 IP Insight 模型可以托管在端点上以进行实时预测或用于处理批量转换。

SageMaker IP Insights 以(实体、IPv4 地址)成对形式提取历史数据,并了解每个实体的 IP 使用模式。使用(实体、IPv4 地址)事件进行查询时, SageMaker IP Insights 模型返回一个分数,该分数可以推断事件模式的异常程度。例如,当用户尝试从 IP 地址登录时,如果 IP Insights 分数足够高,Web 登录服务器可能会决定触发多因素身份验证系统。在更高级的解决方案中,您可以将 IP Insights 分数输入到另一个机器学习模型中。例如,您可以将 IP Insight 分数与其他功能相结合,对另一个安全系统的发现进行排名,例如来自亚马逊 GuardDuty.

这些区域有: SageMaker IP Insights 算法还可以学习 IP 地址的矢量表示,称为嵌入. 您可以使用向量编码的嵌入作为下游机器学习任务中的功能,这些任务使用在 IP 地址中观察到的信息。例如,您可以在诸如测量集群和可视化任务中 IP 地址之间的相似性之类的任务中使用它们。

IP Insights 算法的输入/输出接口

训练和验证

这些区域有: SageMaker IP Insights 算法支持训练和验证数据通道。它使用可选的验证通道来计算 area-under-curve (AUC) 在预定义的负抽样策略上得分。AUC 指标验证了模型区分正样本和负样本的效果。训练和验证数据内容类型需要包含text/csv格式的日期和时间。CSV 数据的第一列是一个不透明的字符串,它为实体提供唯一标识符。第二列是十进制点表示法的 IPv4 地址。IP Insights 目前仅支持文件模式。有关更多信息以及示例,请参阅IP Insights 训练数据格式.

推理

为了推断,IP Insights 支持text/csv,application/json,以及application/jsonlines数据内容类型。有关 SageMaker 提供的推理的常见数据格式的更多信息,请参阅用于推理的常见数据格式。IP Insights 推断返回的输出格式为application/json要么application/jsonlines. 输出数据中的每条记录都包含相应的dot_product每个输入数据点的(或兼容性分数)。有关更多信息以及示例,请参阅IP 见解推理数据格式.

IP 洞察算法的 EC2 实例推荐

这些区域有: SageMaker IP Insights 算法可以在 GPU 和 CPU 实例上运行。对于培训作业,我们建议使用 GPU 实例。但是,对于某些具有大型训练数据集的工作负载,分布式 CPU 实例可能会降低训练成本。为了推理,建议使用 CPU 实例。IP Insights 支持 P2、P3、G4dn 和 G5 G5 GPU 系列。

IP 洞察算法的 GPU 实例

IP Insights 支持所有可用的 GPU。如果你需要加快训练速度,我们建议从单个 GPU 实例开始,例如 ml.p3.2xlarge,然后迁移到多 GPU 环境,例如 ml.p3.8xlarge 和 ml.p3.16xlarge。多 GPU 会自动将小批次的训练数据划分到它们之间。如果您从单个 GPU 切换到多个 GPU,mini_batch_size平均分为使用的 GPU 数量。您可能需要增大mini_batch_size以弥补这一点。

IP 洞察算法的 CPU 实例

我们推荐的 CPU 实例类型在很大程度上取决于实例的可用内存和模型大小。模型大小由两个超参数决定:vector_dimnum_entity_vectors. 支持的最大模型大小为 8 GB。下表针对各种模型大小,列出了基于这些输入参数部署的典型 EC2 实例类型。在表 1 中,的值vector_dim在第一列中,范围为 32 到 2048,其值为num_entity_vectors在第一行的范围从 10,000 到 50,000,000 之间。

vector_dim \ num_entity_vectors. 10000 50000 100000 500,000 1000000 5000 万 10,000,000 50百万个
32

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

ml.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

ml.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

字段mini_batch_size,num_ip_encoder_layers,random_negative_sampling_rate,以及shuffled_negative_sampling_rate超参数也会影响所需的内存量。如果这些值很大,则可能需要使用比普通值更大的实例类型。

IP 洞察示例笔记本

有关演示如何训练的示例笔记本 SageMaker IP Insights 算法并使用它进行推理,请参阅简介 SageMakerIP 洞察算法. 有关如何创建和访问可用于在 SageMaker 中运行示例的 Jupyter 笔记本实例的说明,请参阅亚马逊SageMaker笔记本电脑实例。创建笔记本实例后,选择SageMaker 示例选项卡可查看所有内容的列表 SageMaker 示例。要打开笔记本,请选择其 Use (使用) 选项卡,然后选择 Create copy (创建副本)