使用 dataprocessing 命令处理数据 - Amazon Neptune
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 dataprocessing 命令处理数据

您可以使用 Neptune ML dataprocessing 命令创建数据处理任务、检查其状态、停止它或列出所有活动的数据处理任务。

使用 Neptune ML dataprocessing 命令创建数据处理任务

用于创建新任务的典型 Neptune ML dataprocessing 命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

启动增量重新处理的命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
用于创建 dataprocessing 任务的参数
  • id –(可选)新任务的唯一标识符。

    类型:字符串。默认:自动生成的UUID。

  • previousDataProcessingJobId –(可选)在较早版本的数据上运行的已完成数据处理任务的任务 ID。

    类型:字符串。默认值

    注意:使用它进行增量数据处理,以便在图形数据发生变化(但不是在数据已被删除)时更新模型。

  • inputDataS3Location—(必填)您希望 A SageMaker I 下载运行数据处理任务所需的数据的 Amazon S3 位置。URI

    类型:字符串。

  • processedDataS3Location—(必填)您希望 A SageMaker I 保存数据处理任务结果的 Amazon S3 位置。URI

    类型:字符串。

  • sagemakerIamRoleArn—(可选)用于 SageMaker AI 执行的IAM角色。ARN

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • neptuneIamRoleArn—(可选)A SageMaker I 可以代替您执行任务的IAM角色的 Amazon 资源名称 (ARN)。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • processingInstanceType –(可选)在数据处理期间使用的机器学习实例的类型。它的内存应该足够大,可以容纳处理后的数据集。

    类型:字符串。默认:内存比磁盘上导出的图形数据大小大十倍的最小 ml.r5 类型。

    注意:Neptune ML 可以自动选择实例类型。请参阅 选择进行数据处理的实例

  • processingInstanceVolumeSizeInGB –(可选)处理实例的磁盘卷大小。输入数据和处理后的数据都存储在磁盘上,因此卷大小必须足够大,以容纳两个数据集。

    类型:整数。默认值0

    注意:如果未指定或为 0,则 Neptune ML 会根据数据大小自动选择卷大小。

  • processingTimeOutInSeconds –(可选)数据处理任务的超时(以秒为单位)。

    类型:整数。默认值86,400(1 天)。

  • modelType –(可选)Neptune ML 当前支持的两种模型类型之一:异构图模型 (heterogeneous) 和知识图谱 (kge)。

    类型:字符串。默认值

    注意:如果未指定,Neptune ML 会根据数据自动选择模型类型。

  • configFileName –(可选)描述如何加载导出的图形数据进行训练的数据规范文件。该文件由 Neptune 导出工具包自动生成。

    类型:字符串。默认值training-data-configuration.json

  • subnets—(可选)Neptune VPC 中的子网。IDs

    类型:字符串列表。默认值

  • securityGroupIds—(可选)VPC安全组IDs。

    类型:字符串列表。默认值

  • volumeEncryptionKMSKey—(可选) SageMaker AI 用来加密连接到运行处理作业的 ML 计算实例的存储卷上的数据的 Amazon Key Management Service (Amazon KMS) 密钥。

    类型:字符串。默认值

  • enableInterContainerTrafficEncryption –(可选)在训练或超参数调整任务中启用或禁用容器间流量加密。

    类型:布尔值。默认值True

    注意

    enableInterContainerTrafficEncryption 参数仅在引擎版本 1.2.0.2.R3 中可用。

  • s3OutputEncryptionKMSKey—(可选Amazon KMS) SageMaker AI 用来加密训练作业输出的 Amazon Key Management Service () 密钥。

    类型:字符串。默认值

使用 Neptune ML dataprocessing 命令获取数据处理任务的状态

用于显示任务状态的示例 Neptune ML dataprocessing 命令如下所示:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
dataprocessing 任务状态的参数
  • id –(必需)数据处理任务的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn—(可选)向 Neptune 提供 SageMaker AI 和 Amazon S3 资源访问权限的IAM角色。ARN

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

使用 Neptune ML dataprocessing 命令停止数据处理任务

用于停止任务的示例 Neptune ML dataprocessing 命令如下所示:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

或者:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
dataprocessing 停止任务的参数
  • id –(必需)数据处理任务的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn—(可选)向 Neptune 提供 SageMaker AI 和 Amazon S3 资源访问权限的IAM角色。ARN

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • clean –(可选)此标志指定在任务停止时应删除所有 Amazon S3 构件。

    类型:布尔值。默认值FALSE

使用 Neptune ML dataprocessing 命令列出处于活动状态的数据处理任务

用于列出活动任务的示例 Neptune ML dataprocessing 命令如下所示:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

或者:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
dataprocessing 列出任务的参数
  • maxItems –(可选),表示要返回的最大项目数。

    类型:整数。默认值10允许的最大值1024

  • neptuneIamRoleArn—(可选)向 Neptune 提供 SageMaker AI 和 Amazon S3 资源访问权限的IAM角色。ARN

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。