本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
IP Insights 超参数
在 CreateTransformJob
请求中,您可以指定训练算法。您也可以将算法特定的超参数指定为 string-to-string 地图。下表列出了Amazon 的超参数 SageMaker IP 洞察算法。
参数名称 | 描述 |
---|---|
num_entity_vectors |
要训练的实体向量表示(实体嵌入向量)的数量。使用哈希函数将训练集中的每个实体随机分配给其中一个向量。由于哈希冲突,可能会将多个实体分配给同一个向量。这将导致同一个向量表示多个实体。只要碰撞率不太严重,这对模型性能的影响通常可以忽略不计。要保持较低的碰撞率,请将该值设置为尽可能高的值。但是,模型大小以及训练和推理的内存要求随此超参数呈线性变化。我们建议您将此值设置为唯一实体标识符数量的两倍。 必填 有效值:1 ≤ 正整数 ≤ 250,000,000 |
vector_dim |
表示实体和 IP 地址的嵌入向量的大小。值越大,使用这些表示法可以编码的信息就越多。实际上,模型大小使用此参数线性缩放,并限制了维度的大小。此外,使用过大的矢量表示可能会导致模型过度拟合,对于小型训练数据集尤其如此。当模型没有学习数据中的任何模式,但有效地记住了训练数据,因此无法很好地概括并且在推理过程中表现不佳时,就会发生过度拟合。建议值为 128。 必填 有效值:4 ≤ 正整数 ≤ 4096 |
batch_metrics_publish_interval |
Apache MXNet Speedometer 函数输出网络训练速度(采样数/秒)的间隔(每 X 个批次)。 可选 有效值:正整数 ≥ 1 默认值:1000 |
epochs |
训练数据的传递次数。最佳值取决于您的数据大小和学习率。典型值介于 5 到 100 之间。 可选 有效值:正整数 ≥ 1 默认值:10 |
learning_rate |
优化程序的学习率。知识产权洞察使用 gradient-descent-based Adam 优化程序。学习速率可有效控制步长以在每次迭代时更新模型参数。学习速率过高可能会导致模型出现分歧,因为训练可能会超过最小值。另一方面,学习速率太小会减慢收敛。典型值范围从 1e-4 到 1e-1。 可选 有效值:1e-6 ≤ 浮点数 ≤ 10.0 默认值:0.001 |
mini_batch_size |
每个小批量中的示例数。训练程序以小批量处理数据。最佳值取决于数据集中唯一账户标识符的数量。一般来说,越大 可选 有效值:1 ≤ 5000 默认值:10000 |
num_ip_encoder_layers |
用于对 IP 地址嵌入进行编码的完全连接层的数量。层数越多,模型捕获 IP 地址模式的能力就越大。但是,使用大量图层会增加过度拟合的几率。 可选 有效值:0 ≤ 正整数 ≤ 100 默认值:1 |
random_negative_sampling_rate |
针对每个输入示例生成的随机负采样的数量 R。训练过程依赖于负采样来防止模型的向量表示折叠到单个点。随机负采样为小批量中的每个输入账户生成 R 个随机 IP 地址。的总和 可选 有效值:0 ≤ 正整数 ≤ 500 默认值:1 |
shuffled_negative_sampling_rate |
针对每个输入示例生成的随机负采样的数量 S。在某些情况下,它有助于使用从训练数据本身随机挑选的更真实的负采样。这种负采样是通过在小批次中对数据进行洗牌来实现的。随机排列负采样通过在小批量内随机排列 IP 地址和账户对来生成 S 负 IP 地址。的总和 可选 有效值:0 ≤ 正整数 ≤ 500 默认值:1 |
weight_decay |
权重衰减系数。此参数添加了一个 L2 正则化因子,该因子是防止模型过度拟合训练数据所必需的。 可选 有效值:0.0 ≤ 浮点数 ≤ 10.0 默认值:0.00001 |