使用 dataprocessing 命令处理数据 - Amazon Neptune
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 dataprocessing 命令处理数据

您可以使用 Neptune ML dataprocessing 命令创建数据处理任务、检查其状态、停止它或列出所有活动的数据处理任务。

使用 Neptune ML dataprocessing 命令创建数据处理任务

用于创建新任务的典型 Neptune ML dataprocessing 命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

启动增量重新处理的命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
用于创建 dataprocessing 任务的参数
  • id –(可选)新任务的唯一标识符。

    类型:字符串。默认:自动生成的 UUID。

  • previousDataProcessingJobId –(可选)在较早版本的数据上运行的已完成数据处理任务的任务 ID。

    类型:字符串。默认值

    注意:使用它进行增量数据处理,以便在图形数据发生变化(但不是在数据已被删除)时更新模型。

  • inputDataS3Location –(必需)您希望 SageMaker 下载运行数据处理任务所需数据的 Amazon S3 位置的 URI。

    类型:字符串。

  • processedDataS3Location –(必需)您希望 SageMaker 保存数据处理任务结果的 Amazon S3 位置的 URI。

    类型:字符串。

  • sagemakerIamRoleArn –(可选)用于执行 SageMaker 的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • neptuneIamRoleArn –(可选)SageMaker 可以代入以代表您执行任务的 IAM 角色的 Amazon 资源名称 (ARN)。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • processingInstanceType –(可选)在数据处理期间使用的机器学习实例的类型。它的内存应该足够大,可以容纳处理后的数据集。

    类型:字符串。默认:内存比磁盘上导出的图形数据大小大十倍的最小 ml.r5 类型。

    注意:Neptune ML 可以自动选择实例类型。请参阅选择进行数据处理的实例

  • processingInstanceVolumeSizeInGB –(可选)处理实例的磁盘卷大小。输入数据和处理后的数据都存储在磁盘上,因此卷大小必须足够大,以容纳两个数据集。

    类型:整数。默认值0

    注意:如果未指定或为 0,则 Neptune ML 会根据数据大小自动选择卷大小。

  • processingTimeOutInSeconds –(可选)数据处理任务的超时(以秒为单位)。

    类型:整数。默认值86,400(1 天)。

  • modelType –(可选)Neptune ML 当前支持的两种模型类型之一:异构图模型 (heterogeneous) 和知识图谱 (kge)。

    类型:字符串。默认值

    注意:如果未指定,Neptune ML 会根据数据自动选择模型类型。

  • configFileName –(可选)描述如何加载导出的图形数据进行训练的数据规范文件。该文件由 Neptune 导出工具包自动生成。

    类型:字符串。默认值training-data-configuration.json

  • subnets –(可选)Neptune VPC 中子网的 ID。

    类型:字符串列表。默认值

  • securityGroupIds –(可选)VPC 安全组 ID。

    类型:字符串列表。默认值

  • volumeEncryptionKMSKey –(可选)Amazon Key Management Service (Amazon KMS) 密钥,SageMaker 使用它来加密附加到运行处理任务的 ML 计算实例的存储卷上的数据。

    类型:字符串。默认值

  • enableInterContainerTrafficEncryption –(可选)在训练或超参数调整任务中启用或禁用容器间流量加密。

    类型:布尔值。默认值True

    注意

    enableInterContainerTrafficEncryption 参数仅在引擎版本 1.2.0.2.R3 中可用。

  • s3OutputEncryptionKMSKey–(可选)SageMaker 用来加密训练任务输出的 Amazon Key Management Service (Amazon KMS) 密钥。

    类型:字符串。默认值

使用 Neptune ML dataprocessing 命令获取数据处理任务的状态

用于显示任务状态的示例 Neptune ML dataprocessing 命令如下所示:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
dataprocessing 任务状态的参数
  • id –(必需)数据处理任务的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn –(可选)向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

使用 Neptune ML dataprocessing 命令停止数据处理任务

用于停止任务的示例 Neptune ML dataprocessing 命令如下所示:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

或者:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
dataprocessing 停止任务的参数
  • id –(必需)数据处理任务的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn –(可选)向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。

  • clean –(可选)此标志指定在任务停止时应删除所有 Amazon S3 构件。

    类型:布尔值。默认值FALSE

使用 Neptune ML dataprocessing 命令列出处于活动状态的数据处理任务

用于列出活动任务的示例 Neptune ML dataprocessing 命令如下所示:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

或者:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
dataprocessing 列出任务的参数
  • maxItems –(可选),表示要返回的最大项目数。

    类型:整数。默认值10允许的最大值1024

  • neptuneIamRoleArn –(可选)向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。

    类型:字符串。注意:必须将其列在您的数据库集群参数组中,否则将发生错误。