使用dataprocessing命令 - Amazon Neptune
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用dataprocessing命令

你使用 Neptune MLdataprocessing命令来创建数据处理作业、检查其状态、停止它或列出所有活动的数据处理作业。

使用 Neptune ML 创建数据处理作业dataprocessing命令

典型的 Neptune MLdataprocessing用于创建新作业的命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

用于启动增量重新处理的命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'

的参数dataprocessing创造就业

  • id— (可选) 新作业的唯一标识符。

    类型:字符串。默认值:自动生成的 UUUID。

  • previousDataProcessingJobId— (可选) 在早期版本的数据上运行的已完成数据处理作业的作业 ID。

    类型:字符串。默认值.

    注意:将其用于增量数据处理,以便在图形数据发生更改时(但不是删除数据时)更新模型。

  • inputDataS3Location— (必需) 您希望 SageMaker 在其中下载运行数据处理作业所需的数据的 Amazon S3 位置的 URI。

    类型:字符串。

  • processedDataS3Location— (必需) 您希望 SageMaker 在其中保存数据处理任务结果的 Amazon S3 位置的 URI。

    类型:字符串。

  • sagemakerIamRoleArn— (可选) 用于 SageMaker 执行的 IAM 角色的 ARN。

    类型:字符串。注意:这必须列在数据库集群参数组中,否则将发生错误。

  • neptuneIamRoleArn— (可选) SageMaker 可以代表您执行任务的 IAM 角色的 Amazon 资源名称 (ARN)。

    类型:字符串。注意:这必须列在数据库集群参数组中,否则将发生错误。

  • processingInstanceType— (可选) 数据处理期间使用的 ML 实例的类型。其内存应足够大以容纳已处理的数据集。

    类型:字符串。默认值: 最小的ml.r5类型,其内存比磁盘上导出的图形数据大小大十倍。

    注意:Neptune ML 可以自动选择实例类型。请参阅选择用于数据处理的实例

  • processingInstanceVolumeSizeInGB— (可选) 处理实例的磁盘卷大小。输入数据和处理过的数据都存储在磁盘上,因此卷大小必须足以容纳两个数据集。

    类型:整数。默认值0.

    注意:如果未指定或 0,Neptune ML 将根据数据大小自动选择卷大小。

  • processingTimeOutInSeconds— (可选) 数据处理作业的超时(以秒为单位)。

    类型:整数。默认值86,400(1 天)。

  • modelType— (可选) Neptune ML 目前支持的两种模型类型之一:异构图模型 (heterogeneous)和知识图(kge)。

    类型:字符串。默认值.

    注意:如果未指定,Neptune ML 将根据数据自动选择模型类型。

  • configFileName— (可选) 描述如何加载导出的图表数据进行训练的数据规范文件。该文件由 Neptune 导出工具包自动生成。

    类型:字符串。默认值training-data-configuration.json.

  • subnets— (可选) Neptune VPC 中的子网的 ID。

    类型:字符串列表。默认值.

  • securityGroupIds— (可选) VPC 安全组 ID。

    类型:字符串列表。默认值.

  • volumeEncryptionKMSKey— (可选) 该Amazon Key Management Service(Amazon KMS) 密钥,SageMaker 使用该密钥加密附加到运行处理作业的 ML 计算实例的存储卷上的数据。

    类型:字符串。默认值.

  • s3OutputEncryptionKMSKey— (可选) 该Amazon Key Management Service(Amazon KMS) SageMaker 用于加密训练作业输出的密钥。

    类型:字符串。默认值.

使用 Neptune ML 获取数据处理作业的状态dataprocessing命令

样本 Neptune MLdataprocessing命令表示作业的状态如下所示:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool

的参数dataprocessing作业状态

  • id— (必需) 数据处理作业的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn— (可选) IAM 角色的 ARN,它允许 Neptune 访问 SageMaker 和 Amazon S3 资源。

    类型:字符串。注意:这必须列在数据库集群参数组中,否则将发生错误。

使用 Neptune ML 停止数据处理作业dataprocessing命令

样本 Neptune MLdataprocessing停止任务的命令如下所示:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

或者这样:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"

的参数dataprocessing停止作业

  • id— (必需) 数据处理作业的唯一标识符。

    类型:字符串。

  • neptuneIamRoleArn— (可选) IAM 角色的 ARN,它允许 Neptune 访问 SageMaker 和 Amazon S3 资源。

    类型:字符串。注意:这必须列在数据库集群参数组中,否则将发生错误。

  • clean— (可选) 此标志指定在作业停止时应删除所有 Amazon S3 工件。

    类型:布尔值。默认值FALSE.

使用 Neptune ML 列出活动的数据处理作业dataprocessing命令

样本 Neptune MLdataprocessing列出活动作业的命令如下所示:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

或者这样:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"

的参数dataprocessing列出作业

  • maxItems— (可选) 要返回的最大项目数。

    类型:整数。默认值10.允许的最大值1024.

  • neptuneIamRoleArn— (可选) IAM 角色的 ARN,它允许 Neptune 访问 SageMaker 和 Amazon S3 资源。

    类型:字符串。注意:这必须列在数据库集群参数组中,否则将发生错误。