导出中的参数字段params顶级 JSON 对象 - Amazon Neptune
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

导出中的参数字段params顶级 JSON 对象

Neptune 出口paramsJSON 对象允许您控制导出,包括导出数据的类型和格式。

导出参数中可能的字段列表params宾语

下面列出了所有可能出现在params对象。只有这些字段的一个子集出现在任何一个对象中。

所有类型导出的通用字段列表

属性图导出的字段列表

RDF 导出的字段列表

所有类型导出的通用字段

cloneCluster字段中params

(可选). 默认值: false

如果cloneCluster参数设置为true,导出过程使用数据库集群的快速克隆:

"cloneCluster" : true

默认情况下,导出过程会从您使用endpointendpoints要么clusterId参数。但是,如果您的数据库集群在导出过程中使用,且数据正在发生变化,则导出过程无法保证要导出的数据的一致性。

要确保导出的数据一致,请使用cloneCluster参数来改为从数据库集群的静态克隆中导出。

克隆的数据库集群与源数据库集群在同一 VPC 中创建,并继承源的安全组、子网组和 IAM 数据库身份验证设置。导出完成后,Neptune 将删除克隆的数据库集群。

默认情况下,克隆的数据库集群由与源数据库集群中的主实例具有相同实例类型的单个实例组成。您可以通过使用指定不同的实例类型来更改用于克隆的数据库集群的实例类型cloneClusterInstanceType.

注意

如果您未使用cloneCluster选项,并且直接从主数据库集群导出,则可能需要增加从中导出数据的实例的超时时间。对于大型数据集,超时时间应设置为几个小时。

cloneClusterInstanceType字段中params

(可选).

如果cloneCluster参数存在且设置为true,您可以使用cloneClusterInstanceType参数来指定用于克隆的数据库集群的实例类型:

默认情况下,克隆的数据库集群由与源数据库集群中的主实例具有相同实例类型的单个实例组成。

"cloneClusterInstanceType" : "(for example, r5.12xlarge)"

cloneClusterReplicaCount字段中params

(可选).

如果cloneCluster参数存在且设置为true,您可以使用cloneClusterReplicaCount参数来指定在克隆的数据库集群中创建的只读副本实例的数量:

"cloneClusterReplicaCount" : (for example, 3)

默认情况下,克隆的数据库集群由单个主实例组成。这些区域有:cloneClusterReplicaCount参数允许您指定应创建多少个额外的只读副本实例。

clusterId字段中params

(可选).

这些区域有:clusterId参数指定要使用的数据库集群的 ID:

"clusterId" : "(the ID of your DB cluster)"

如果您将clusterId参数中,导出过程使用该数据库集群中的所有可用实例来提取数据。

注意

这些区域有:endpointendpoints, 和clusterId参数是互斥的。使用其中一个也只使用一个。

endpoint字段中params

(可选).

使用endpoint指定数据库集群中的 Neptune 实例的终端节点,导出过程可以查询该终端节点以提取数据(请参阅终端节点连接)。这只是 DNS 名称,不包括协议或端口:

"endpoint" : "(a DNS endpoint of your DB cluster)"

使用集群或实例终端节点,但不使用主读取器终端节点。

注意

这些区域有:endpointendpoints, 和clusterId参数是互斥的。使用其中一个也只使用一个。

endpoints字段中params

(可选).

使用endpoints在数据库集群中指定导出过程可以查询以提取数据的终端节点的 JSON 数组(请参阅终端节点连接)。这些只是 DNS 名称,不包括协议或端口:

"endpoints": [ "(one endpoint in your DB cluster)", "(another endpoint in your DB cluster)", "(a third endpoint in your DB cluster)" ]

如果集群中有多个实例(一个主实例和一个或多个只读副本),则可以使用endpoints参数以跨这些终端节点的列表分发查询。

注意

这些区域有:endpointendpoints, 和clusterId参数是互斥的。使用其中一个也只使用一个。

profile字段中params

(需要导出 Neptune ML 的训练数据,除非neptune_ml字段存在于additionalParams字段).

这些区域有:profile参数为特定工作负载提供了一组预配置的参数。目前,导出过程只支持neptune_ml轮廓

如果要导出 Neptune ML 的训练数据,请将以下参数添加到params对象:

"profile" : "neptune_ml"

useIamAuth字段中params

(可选). 默认值: false

如果要从中导出数据的数据库有启用 IAM 身份验证,您必须包含useIamAuth将参数设置为true

"useIamAuth" : true

includeLastEventId字段中params

如果你设置includeLastEventId为 true,并且要从中导出数据的数据库具有Neptune 直播启用后,导出过程将写lastEventId.json文件到指定的导出位置。此文件包含commitNumopNum直播中最后一个事件的。

"includeLastEventId" : true

由导出过程创建的克隆数据库将继承其父级的流设置。如果父级启用了流,则克隆也将启用流。克隆上的流的内容将反映克隆创建时父级的内容(包括相同的事件 ID)。

用于导出属性图的字段

concurrency字段中params

(可选). 默认值: 4

这些区域有:concurrency参数指定导出过程应使用的并行查询数:

"concurrency" : (for example, 24)

一个很好的指导方针是将并发级别设置为所有从中导出数据的实例上 vCPUs 数量的两倍。例如,r5.xlarge 实例有 4 个 vCPUs。如果从 3 个 r5.xlarge 实例的集群中导出,则可以将并发级别设置为 24(= 3 x 2 x 4)。

如果您使用的是 Neptune-Export 服务,则并发级别受作业大小设置。例如,小型作业支持 8 的并发级别。如果您尝试为小型作业指定 24 的并发级别为 24,请使用concurrency参数,有效水平保持在 8。

如果从克隆的群集导出,则导出过程将根据克隆实例的大小和作业大小计算适当的并发级别。

edgeLabels字段中params

(可选).

使用edgeLabels仅导出那些具有您指定标签的边:

"edgeLabels" : ["(a label)", "(another label"]

JSON 数组中的每个标签必须是一个简单的标签。

这些区域有:scope参数优先于edgeLabels参数,所以如果scope值不包括边缘,edgeLabels参数无效。

filter字段中params

(可选).

使用filter以指定只导出具有特定标签的节点和/或边,并筛选为每个节点或边缘导出的属性。

一个的总体结构filter对象,无论是内联还是在过滤器配置文件中,如下所示:

"filter" : { "nodes": [ (array of node label and properties objects) ], "edges": [ (array of edge definition an properties objects) ] }
  • nodes— 包含以下形式的节点和节点属性的 JSON 数组:

    "nodes : [ { "label": "(node label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label— 节点的属性图标签或标签。

      获取单个值,或者,如果节点有多个标签,则获取一个值数组。

    • properties— 包含要导出的节点属性的名称数组。

  • edges— 包含以下形式的边缘定义的 JSON 数组:

    "edges" : [ { "label": "(edge label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label— 边缘的属性图表标签。需要单个值。

    • properties— 包含要导出的边缘属性的名称数组。

filterConfigFile字段中params

(可选).

使用filterConfigFile指定包含筛选器配置的 JSON 文件,其格式与filter参数需要:

"filterConfigFile" : "s3://(your Amazon S3 bucket)/neptune-export/(the name of the JSON file)"

请参阅筛选条件对于filterConfigFile文件。

format用于属性图数据的字段params

(可选). 默认值csv(逗号分隔值)

这些区域有:format参数指定导出属性图数据的输出格式:

"format" : (one of: csv, csvNoHeaders, json, neptuneStreamsJson)

gremlinFilter字段中params

(可选).

这些区域有:gremlinFilter参数允许你提供 Gremlin 片段,例如has()step,用于过滤节点和边缘:

"gremlinFilter" : (a Gremlin snippet)

字段名称和字符串值应用转义的双引号括起来。对于日期和时间,您可以使用datetime方法。

以下示例仅导出具有日期创建属性且值大于 2021-10-10 的节点和边:

"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"

gremlinNodeFilter字段中params

(可选).

这些区域有:gremlinNodeFilter参数允许你提供 Gremlin 片段,例如has()step,用于过滤节点:

"gremlinNodeFilter" : (a Gremlin snippet)

字段名称和字符串值应用转义的双引号括起来。对于日期和时间,您可以使用datetime方法。

以下示例仅导出具有deleted值为的布尔属性true

"gremlinNodeFilter" : "has(\"deleted\", true)"

gremlinEdgeFilter字段中params

(可选).

这些区域有:gremlinEdgeFilter参数允许你提供 Gremlin 片段,例如has()step,用于过滤边缘:

"gremlinEdgeFilter" : (a Gremlin snippet)

字段名称和字符串值应用转义的双引号括起来。对于日期和时间,您可以使用datetime方法。

以下示例仅导出具有strength值为 5 的数字属性:

"gremlinEdgeFilter" : "has(\"strength\", 5)"

nodeLabels字段中params

(可选).

使用nodeLabels仅导出那些具有您指定标签的节点:

"nodeLabels" : ["(a label)", "(another label"]

JSON 数组中的每个标签必须是一个简单的标签。

这些区域有:scope参数优先于nodeLabels参数,所以如果scope值不包括节点,nodeLabels参数无效。

scope字段中params

(可选). 默认值: all

这些区域有:scope参数指定是仅导出节点还是只导出边,还是同时导出节点和边缘:

"scope" : (one of: nodes, edges, or all)
  • nodes— 仅导出节点及其属性。

  • edges— 仅导出边缘及其属性。

  • all— 同时导出节点和边缘及其属性(默认值)。

用于导出属性图的字段

format用于 RDF 数据的字段params

(可选). 默认值turtle

这些区域有:format参数指定导出 RDF 数据的输出格式:

"format" : (one of: turtle, nquads, ntriples, neptuneStreamsJson)
  • turtle— 海龟格式化的输出。

  • nquads— N-Quads 格式化的数据,没有列标题。

  • ntriples— N-Triples 格式化的数据。

  • neptuneStreamsJson— JSON 格式化的数据,使用SPARQL NQUADS 更改序列化格式.

rdfExportScope字段中params

(可选). 默认值: graph

这些区域有:rdfExportScope参数指定 RDF 导出的范围:

"rdfExportScope" : (one of: graph, edges, or query)
  • graph— 导出所有 RDF 数据。

  • edges— 仅导出那些代表边缘的三元组。

  • query— 导出由 SPARQL 查询检索的数据,该查询使用sparql字段中返回的子位置类型。

sparql字段中params

(可选).

这些区域有:sparql参数允许您指定 SPARQL 查询来检索要导出的数据:

"sparql" : (a SPARQL query)

如果您使用sparql字段,您还必须设置rdfExportScope字段到query.