本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
导出中的参数字段params
顶级 JSON 对象
Neptune 出口params
JSON 对象允许您控制导出,包括导出数据的类型和格式。
导出参数中可能的字段列表params
宾语
下面列出了所有可能出现在params
对象。只有这些字段的一个子集出现在任何一个对象中。
所有类型导出的通用字段列表
属性图导出的字段列表
RDF 导出的字段列表
所有类型导出的通用字段
cloneCluster
中的字段params
(可选). 默认值: false
。
如果cloneCluster
参数设置为true
,导出过程使用数据库集群的快速克隆:
"cloneCluster" : true
默认情况下,导出过程会从您使用endpoint
、endpoints
要么clusterId
参数。但是,如果您的数据库集群在导出过程中使用,且数据正在发生变化,则导出过程无法保证要导出的数据的一致性。
要确保导出的数据一致,请使用cloneCluster
参数来改为从数据库集群的静态克隆中导出。
克隆的数据库集群与源数据库集群在同一 VPC 中创建,并继承源的安全组、子网组和 IAM 数据库身份验证设置。导出完成后,Neptune 将删除克隆的数据库集群。
默认情况下,克隆的数据库集群由与源数据库集群中的主实例具有相同实例类型的单个实例组成。您可以通过使用指定不同的实例类型来更改用于克隆的数据库集群的实例类型cloneClusterInstanceType
.
如果您未使用cloneCluster
选项,并且直接从主数据库集群导出,则可能需要增加从中导出数据的实例的超时时间。对于大型数据集,超时应设置为几个小时。
cloneClusterInstanceType
中的字段params
(可选).
如果cloneCluster
参数存在且设置为true
,您可以使用cloneClusterInstanceType
参数来指定用于克隆的数据库集群的实例类型:
默认情况下,克隆的数据库集群由与源数据库集群中的主实例具有相同实例类型的单个实例组成。
"cloneClusterInstanceType" : "
(for example, r5.12xlarge)
"
cloneClusterReplicaCount
中的字段params
(可选).
如果cloneCluster
参数存在且设置为true
,您可以使用cloneClusterReplicaCount
参数来指定在克隆的数据库集群中创建的只读副本实例的数量:
"cloneClusterReplicaCount" :
(for example, 3)
默认情况下,克隆的数据库集群由单个主实例组成。这些区域有:cloneClusterReplicaCount
参数允许您指定应创建多少个额外的只读副本实例。
clusterId
中的字段params
(可选).
这些区域有:clusterId
参数指定要使用的数据库集群的 ID:
"clusterId" : "
(the ID of your DB cluster)
"
如果您将clusterId
参数中,导出过程使用该数据库集群中的所有可用实例来提取数据。
这些区域有:endpoint
、endpoints
, 和clusterId
参数是互斥的。使用其中一个也只使用一个。
endpoint
中的字段params
(可选).
使用endpoint
指定数据库集群中的 Neptune 实例的终端节点,导出过程可以查询该终端节点以提取数据(请参阅终端节点连接)。这只是 DNS 名称,不包括协议或端口:
"endpoint" : "
(a DNS endpoint of your DB cluster)
"
使用集群或实例终端节点,但不使用主读取终端节点。
这些区域有:endpoint
、endpoints
, 和clusterId
参数是互斥的。使用其中一个也只使用一个。
endpoints
中的字段params
(可选).
使用endpoints
在数据库集群中指定导出过程可以查询以提取数据的终端节点的 JSON 数组(请参阅终端节点连接)。这些只是 DNS 名称,不包括协议或端口:
"endpoints": [ "
(one endpoint in your DB cluster)
", "(another endpoint in your DB cluster)
", "(a third endpoint in your DB cluster)
" ]
如果集群中有多个实例(一个主实例和一个或多个只读副本),则可以使用endpoints
参数以跨这些终端节点的列表分发查询。
这些区域有:endpoint
、endpoints
, 和clusterId
参数是互斥的。使用其中一个也只使用一个。
profile
中的字段params
(需要导出 Neptune ML 的训练数据,除非neptune_ml
字段存在于additionalParams
字段).
这些区域有:profile
参数为特定工作负载提供了一组预配置的参数。目前,导出过程只支持neptune_ml
轮廓
如果要导出 Neptune ML 的训练数据,请将以下参数添加到params
对象:
"profile" : "neptune_ml"
useIamAuth
中的字段params
(可选). 默认值: false
。
如果要从中导出数据的数据库有启用 IAM 身份验证,您必须包含useIamAuth
参数设置为true
:
"useIamAuth" : true
includeLastEventId
中的字段params
如果你设置includeLastEventId
为 true,并且要从中导出数据的数据库具有Neptune 直播启用后,导出过程将写lastEventId.json
文件到指定的导出位置。此文件包含commitNum
和opNum
直播中最后一个事件的。
"includeLastEventId" : true
由导出过程创建的克隆数据库将继承其父级的流设置。如果父级启用了流,则克隆也将启用流。克隆上的流的内容将反映克隆创建时父级的内容(包括相同的事件 ID)。
用于导出属性图的字段
concurrency
中的字段params
(可选). 默认值: 4
。
这些区域有:concurrency
参数指定导出过程应使用的并行查询数:
"concurrency" :
(for example, 24)
一个很好的指导方针是将并发级别设置为所有从中导出数据的实例上 vCPUs 数量的两倍。例如,r5.xlarge 实例有 4 个 vCPUs。如果从 3 个 r5.xlarge 实例的集群中导出,则可以将并发级别设置为 24(= 3 x 2 x 4)。
如果您使用的是 Neptune-Export 服务,则并发级别受作业大小设置。例如,小型作业支持 8 的并发级别。如果您尝试为小型作业指定 24 的并发级别为 24,请使用concurrency
参数,有效水平保持在 8。
如果从克隆的群集导出,则导出过程将根据克隆实例的大小和作业大小计算适当的并发级别。
edgeLabels
中的字段params
(可选).
使用edgeLabels
仅导出那些具有您指定标签的边:
"edgeLabels" : ["
(a label)
", "(another label
"]
JSON 数组中的每个标签必须是一个简单的标签。
这些区域有:scope
参数的优先级高于edgeLabels
参数,所以如果scope
值不包括边缘,edgeLabels
参数没有影响。
filter
中的字段params
(可选).
使用filter
以指定只导出具有特定标签的节点和/或边,并筛选为每个节点或边缘导出的属性。
A 的一般结构filter
对象,无论是内联还是在过滤器配置文件中,如下所示:
"filter" : { "nodes": [
(array of node label and properties objects)
], "edges": [(array of edge definition an properties objects)
] }
-
nodes
— 包含以下形式的节点和节点属性的 JSON 数组:"nodes : [ { "label": "
(node label)
", "properties": [ "(a property name)
", "(another property name)
",( ... )
] } ]-
label
— 节点的属性图标签或标签。获取单个值,或者,如果节点有多个标签,则获取一个值数组。
-
properties
— 包含要导出的节点属性的名称的数组。
-
-
edges
— 包含以下形式的边缘定义的 JSON 数组:"edges" : [ { "label": "
(edge label)
", "properties": [ "(a property name)
", "(another property name)
",( ... )
] } ]label
— 边缘的属性图表标签。需要单个值。properties
— 包含要导出的边属性的名称的数组。
filterConfigFile
中的字段params
(可选).
使用filterConfigFile
指定包含过滤器配置的 JSON 文件,格式与filter
参数需要:
"filterConfigFile" : "s3://
(your Amazon S3 bucket)
/neptune-export/(the name of the JSON file)
"
请参阅筛选条件对于的格式,请参阅filterConfigFile
文件。
format
用于属性图数据的字段params
(可选). 默认值:csv
(逗号分隔值)
这些区域有:format
参数指定导出的属性图数据的输出格式:
"format" :
(one of: csv, csvNoHeaders, json, neptuneStreamsJson)
-
csv
— 逗号分隔值 (CSV) 格式化的输出,列标题根据Gremlin 加载数据格式. -
csvNoHeaders
— CSV 格式化的数据,没有列标题。 -
json
— JSON 格式化的数据。 -
neptuneStreamsJson
— JSON 格式化的数据,使用GREMLIN_JSON 更改序列化格式.
gremlinFilter
中的字段params
(可选).
这些区域有:gremlinFilter
参数允许你提供 Gremlin 片段,例如has()
step,用于过滤节点和边缘:
"gremlinFilter" :
(a Gremlin snippet)
字段名称和字符串值应用转义的双引号括起来。对于日期和时间,您可以使用datetime方法。
以下示例仅导出具有日期创建属性且值大于 2021-10-10 的节点和边:
"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"
gremlinNodeFilter
中的字段params
(可选).
这些区域有:gremlinNodeFilter
参数允许你提供 Gremlin 片段,例如has()
step,用于过滤节点:
"gremlinNodeFilter" :
(a Gremlin snippet)
字段名称和字符串值应用转义的双引号括起来。对于日期和时间,您可以使用datetime方法。
以下示例仅导出具有deleted
值为的布尔属性true
:
"gremlinNodeFilter" : "has(\"deleted\", true)"
gremlinEdgeFilter
中的字段params
(可选).
这些区域有:gremlinEdgeFilter
参数允许你提供 Gremlin 片段,例如has()
step,用于过滤边缘:
"gremlinEdgeFilter" :
(a Gremlin snippet)
字段名称和字符串值应用转义的双引号括起来。对于日期和时间,您可以使用datetime方法。
以下示例仅导出带有strength
值为 5 的数字属性:
"gremlinEdgeFilter" : "has(\"strength\", 5)"
nodeLabels
中的字段params
(可选).
使用nodeLabels
仅导出具有您指定标签的节点:
"nodeLabels" : ["
(a label)
", "(another label
"]
JSON 数组中的每个标签必须是一个简单的标签。
这些区域有:scope
参数的优先级高于nodeLabels
参数,所以如果scope
值不包括节点,nodeLabels
参数没有影响。
scope
中的字段params
(可选). 默认值: all
。
这些区域有:scope
参数指定是仅导出节点还是只导出边,还是同时导出节点和边缘:
"scope" :
(one of: nodes, edges, or all)
nodes
— 仅导出节点及其属性。edges
— 仅导出边缘及其属性。all
— 导出节点和边缘及其属性(默认值)。
RDF 导出的字段
format
用于 RDF 数据的字段params
(可选). 默认值:turtle
这些区域有:format
参数指定导出 RDF 数据的输出格式:
"format" :
(one of: turtle, nquads, ntriples, neptuneStreamsJson)
-
turtle
— 海龟格式化的输出。 -
nquads
— N-Quads 格式化的数据,没有列标题。 -
ntriples
— N-Triples 格式化的数据。 -
neptuneStreamsJson
— JSON 格式化的数据,使用SPARQL NQUADS 更改序列化格式.
rdfExportScope
中的字段params
(可选). 默认值: graph
。
这些区域有:rdfExportScope
参数指定 RDF 导出的范围:
"rdfExportScope" :
(one of: graph, edges, or query)
graph
— 导出所有 RDF 数据。edges
— 仅导出那些代表边缘的三元组。query
— 导出由 SPARQL 查询检索的数据,该查询使用sparql
字段中返回的子位置类型。
sparql
中的字段params
(可选).
这些区域有:sparql
参数允许您指定 SPARQL 查询来检索要导出的数据:
"sparql" :
(a SPARQL query)
如果您使用sparql
字段中返回的子位置,则还必须rdfExportScope
字段至query
.