处理从 Neptune 导出的图表数据以进行训练 - Amazon Neptune
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

处理从 Neptune 导出的图表数据以进行训练

数据处理步骤采用导出过程创建的 Neptune 图形数据,然后创建由深图库 (DGL)在训练期间。这包括执行各种数据映射和转换:

  • 解析节点和边缘以构建 DGL 所需的图形和 ID 映射文件。

  • 将节点和边属性转换为 DGL 所需的节点和边要素。

  • 将数据拆分为训练、验证和测试集。

管理 Neptune ML 的数据处理步骤

从 Neptune 导出要用于模型训练的数据后,您可以使用curl(或awscurl) 如下所示的命令:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)", "configFileName" : "training-job-configuration.json" }'

有关如何使用此命令的详细信息,请参阅数据处理命令,以及有关如何获取正在运行的作业的状态、如何停止正在运行的作业以及如何列出所有正在运行的作业的信息。

处理 Neptune ML 的更新图表数据

您还可以提供previousDataProcessingJobId以确保新的数据处理作业使用与之前的作业相同的处理方法。当您希望通过在新数据上重新训练旧模型或通过重新计算新数据上的模型构件来获得对 Neptune 中更新图数据的预测时,这是必需的。

您可以使用curl(或awscurl) 这样的命令:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)", "previousDataProcessingJobId", "(the job ID of the previous data-processing job)"}'

设置的值previousDataProcessingJobId参数指向与训练模型对应的上一个数据处理作业的作业 ID。

注意

目前不支持在更新后的图表中删除节点。如果已在更新的图表中删除了节点,则必须启动全新的数据处理作业而不是使用previousDataProcessingJobId.