在中使用参数的示例additionalParams用于调整模型训练配置 - Amazon Neptune
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在中使用参数的示例additionalParams用于调整模型训练配置

使用属性图示例additionalParams

为模型训练配置指定默认拆分率

在下面的示例中,split_rate参数设置模型训练的默认拆分率。如果未指定默认拆分率,则训练使用值 [0.9、0.1、0.0]。您可以通过在每个目标基础上覆盖默认值,方法是指定split_rate对于每个目标。

在下面的示例中,default split_rate字段表示拆分率[0.7,0.1,0.2]应该使用,除非在每个目标基础上覆盖:”

"additionalParams": { "neptune_ml": { "version": "v2.0", "split_rate": [0.7,0.1,0.2], "targets": [ (...) ], "features": [ (...) ] } }

为模型训练配置指定节点分类任务

要指示哪个节点属性包含用于训练目的的标记示例,请将节点分类元素添加到targets数组,使用"type" : "classification". 添加split_rate字段如果要覆盖默认的拆分率。

在下面的示例中,node目标表示genre每个人的财产Movie节点应该被视为节点类标签。这些区域有:split_rate该值会覆盖默认拆分率:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "Movie", "property": "genre", "type": "classification", "split_rate": [0.7,0.1,0.2] } ], "features": [ (...) ] } }

为模型训练配置指定多类节点分类任务

要指示哪个节点属性包含多个用于训练目的的标记示例,请将节点分类元素添加到目标数组中,使用"type" : "classification", 和separator指定可用于将目标属性值拆分为多个类别值的字符。添加split_rate字段如果要覆盖默认的拆分率。

在下面的示例中,node目标表示genre每个人的财产Movie节点应该被视为节点类标签。这些区域有:separator字段表示每个类型属性包含多个以分号分隔的值:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "Movie", "property": "genre", "type": "classification", "separator": ";" } ], "features": [ (...) ] } }

为模型训练配置指定节点回归任务

要指示哪个节点属性包含用于训练目的的标记回归,请使用以下方法向目标数组添加节点回归元素"type" : "regression". 如果要覆盖默认拆分率,请添加 split_rate 字段。

以下node目标表示rating每个人的财产Movie节点应该被视为节点回归标签:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "Movie", "property": "rating", "type" : "regression", "split_rate": [0.7,0.1,0.2] } ], "features": [ ... ] } }

为模型训练配置指定边缘分类任务

要指示哪个 edge 属性包含用于训练目的的标记示例,请将 Edge 元素添加到targets数组,使用"type" : "regression". 如果要覆盖默认拆分率,请添加 split_rate 字段。

以下edge目标表示metAtLocation每个人的财产knowsedge 应该被视为边缘类标签:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "edge": ["Person", "knows", "Person"], "property": "metAtLocation", "type": "classification" } ], "features": [ (...) ] } }

为模型训练配置指定多类边缘分类任务

要指示哪个 edge 属性包含多个用于训练目的的标记示例,请将一个 Edge 元素添加到targets数组,使用"type" : "classification",还有separator字段来指定用于将目标属性值拆分为多个类别值的字符。添加split_rate字段如果要覆盖默认的拆分率。

以下edge目标表示sentiment每个人的财产repliedToEdge 应该被视为边缘类标签。分隔符字段表示每个情绪属性包含多个逗号分隔值:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "edge": ["Person", "repliedTo", "Message"], "property": "sentiment", "type": "classification", "separator": "," } ], "features": [ (...) ] } }

为模型训练配置指定边缘回归

要指示哪个边缘属性包含用于训练目的的标记回归示例,请添加edge元素到targets数组,使用"type" : "regression". 添加split_rate字段如果要覆盖默认的拆分率。

以下edge目标表示rating每个人的财产reviewededge 应该被视为边缘回归:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "edge": ["Person", "reviewed", "Movie"], "property": "rating", "type" : "regression" } ], "features": [ (...) ] } }

要指示哪些边应用于链接预测训练目的,请使用"type" : "link_prediction". 添加split_rate字段如果要覆盖默认的拆分率。

以下edge目标表明cites边应该用于链接预测:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "edge": ["Article", "cites", "Article"], "type" : "link_prediction" } ], "features": [ (...) ] } }

指定数字存储桶功能

您可以通过添加以下方法为节点属性指定数值数据功能"type": "bucket_numerical"features数组。

以下node功能表明age每个人的财产Person节点应该被视为数字桶功能:

"additionalParams": { "neptune_ml": { "targets": [ ... ], "features": [ { "node": "Person", "property": "age", "type": "bucket_numerical", "range": [1, 100], "bucket_cnt": 5, "slide_window_size": 3, "imputer": "median" } ] } }

指定Word2Vec功能

您可以指定Word2Vec通过添加节点属性的功能"type": "text_word2vec"features数组。

以下node功能表明description每个人的财产Movie此时会将此时会被视为Word2Vec功能:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "Movie", "property": "description", "type": "text_word2vec", "language": "en_core_web_lg" } ] } }

指定FastText功能

您可以指定FastText通过添加节点属性的功能"type": "text_fasttext"features数组。这些区域有:language该字段为必填项,且必须指定以下语言代码之一:

  • en(英语)

  • zh(中文)

  • hi(印地语)

  • es(西班牙语)

  • fr(法语)

请注意,text_fasttext编码不能在一个功能中一次处理多种语言。

以下node功能表明法语description每个人的财产Movie此时会将此时会被视为FastText功能:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "Movie", "property": "description", "type": "text_fasttext", "language": "fr", "max_length": 1024 } ] } }

指定Sentence BERT功能

您可以指定Sentence BERT通过添加节点属性的功能"type": "text_sbert"features数组。您无需指定语言,因为该方法会使用多语言语言模型自动编码文本要素。

以下node功能表明description每个人的财产Movie此时会将此时会被视为Sentence BERT功能:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "Movie", "property": "description", "type": "text_sbert128", } ] } }

指定TF-IDF功能

您可以指定TF-IDF通过添加节点属性的功能"type": "text_tfidf"features数组。

以下node功能表明bio每个人的财产Person此时会将此时会被视为TF-IDF功能:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "Movie", "property": "bio", "type": "text_tfidf", "ngram_range": [1, 2], "min_df": 5, "max_features": 1000 } ] } }

指定datetime功能

导出过程会自动推断datetime日期属性的功能。但是,如果你想限制datetime_parts用于datetime功能,或者覆盖功能规范,以便通常被视为auto功能被明确视为datetime功能,您可以通过添加"type": "datetime"到要素数组。

以下node功能表明createdAt每个人的财产Post此时会将此时会被视为datetime功能:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "Post", "property": "createdAt", "type": "datetime", "datetime_parts": ["month", "weekday", "hour"] } ] } }

指定category功能

导出过程会自动推断auto字符串属性的功能和包含倍数值的数字属性。对于包含单个值的数字属性,它推断numerical功能。对于日期属性,它推断datetime功能。

如果要覆盖功能规范以便将属性视为类别要素,请添加"type": "category"到要素数组。如果属性包含多个值,请包括separator字段中返回的子位置类型。例如:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "Post", "property": "tag", "type": "category", "separator": "|" } ] } }

指定numerical功能

导出过程会自动推断auto字符串属性的功能和包含倍数值的数字属性。对于包含单个值的数字属性,它推断numerical功能。对于日期属性,它推断datetime功能。

如果要覆盖功能规范以便将属性视为numerical功能,添加"type": "numerical"到要素数组。如果属性包含多个值,请包括separator字段中返回的子位置类型。例如:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "Recording", "property": "duration", "type": "numerical", "separator": "," } ] } }

指定auto功能

导出过程会自动推断auto字符串属性的功能和包含倍数值的数字属性。对于包含单个值的数字属性,它推断numerical功能。对于日期属性,它推断datetime功能。

如果要覆盖功能规范以便将属性视为auto功能,添加"type": "auto"到要素数组。如果属性包含多个值,请包括separator字段中返回的子位置类型。例如:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ ... ], "features": [ { "node": "User", "property": "role", "type": "auto", "separator": "," } ] } }

使用 RDF 示例additionalParams

为模型训练配置指定默认拆分率

在下面的示例中,split_rate参数设置模型训练的默认拆分率。如果未指定默认拆分率,则训练使用值 [0.9、0.1、0.0]。您可以通过在每个目标基础上覆盖默认值,方法是指定split_rate对于每个目标。

在下面的示例中,default split_rate字段表示拆分率[0.7,0.1,0.2]应该使用,除非在每个目标基础上覆盖:”

"additionalParams": { "neptune_ml": { "version": "v2.0", "split_rate": [0.7,0.1,0.2], "targets": [ (...) ] } }

为模型训练配置指定节点分类任务

要指示哪个节点属性包含用于训练目的的标记示例,请将节点分类元素添加到targets数组,使用"type" : "classification". 添加节点字段以指示目标节点的节点类型。添加predicate字段来定义哪些文字数据用作目标节点的目标节点功能。添加split_rate字段如果要覆盖默认的拆分率。

在下面的示例中,node目标表示genre每个人的财产Movie节点应该被视为节点类标签。这些区域有:split_rate该值会覆盖默认拆分率:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "http://aws.amazon.com/neptune/csv2rdf/class/Movie", "predicate": "http://aws.amazon.com/neptune/csv2rdf/datatypeProperty/genre", "type": "classification", "split_rate": [0.7,0.1,0.2] } ] } }

为模型训练配置指定节点回归任务

要指示哪个节点属性包含用于训练目的的标记回归,请使用以下方法向目标数组添加节点回归元素"type" : "regression". 添加node该字段以指示目标节点的节点类型。添加predicate字段来定义哪些文字数据用作目标节点的目标节点功能。添加split_rate字段如果要覆盖默认的拆分率。

以下node目标表示rating每个人的财产Movie节点应该被视为节点回归标签:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "node": "http://aws.amazon.com/neptune/csv2rdf/class/Movie", "predicate": "http://aws.amazon.com/neptune/csv2rdf/datatypeProperty/rating", "type": "regression", "split_rate": [0.7,0.1,0.2] } ] } }

要指示哪些边应用于链接预测训练目的,请使用"type" : "link_prediction". Addsubjectpredicateobject用于指定边缘类型的字段。添加split_rate字段如果要覆盖默认的拆分率。

以下edge目标表明directed连接的边DirectorsMovies应该用于链接预测:

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "subject": "http://aws.amazon.com/neptune/csv2rdf/class/Director", "predicate": "http://aws.amazon.com/neptune/csv2rdf/datatypeProperty/directed", "object": "http://aws.amazon.com/neptune/csv2rdf/class/Movie", "type" : "link_prediction" } ] } }

要表明所有边都应用于链接预测训练目的,请添加edge元素到目标数组中使用"type" : "link_prediction". 不要添加subjectpredicate,或者object字段之间没有不同。添加split_rate字段如果要覆盖默认的拆分率。

"additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "type" : "link_prediction" } ] } }