为创建一个 HDFS 位置Amazon DataSync - Amazon DataSync
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为创建一个 HDFS 位置Amazon DataSync

位置是 Hadoop Distributed File System(HDFS)的端点。 Amazon DataSync可以使用该位置作为复制数据的源或目标。

访问 HFFS 集群

要连接到您的 HDFS 集群,请 DataSync 使用您在 HDFS 集群附近部署的代理。要了解有关 DataSync 代理的更多信息,请参阅与Amazon DataSync代理合作。 DataSync 代理充当 HDFS 客户端,与集群 DataNodes 中的 NameNodes 和通信。

启动任务时, DataSync 查询 NameNode 集群上文件和文件夹的位置。如果将 HDFS 位置配置为源,则从集群 DataNodes 中 DataSync 读取文件和文件夹数据,并将数据复制到目标。如果将 HDFS 位置配置为目标,则 DataSync 将文件和文件夹从目标写入集群 DataNodes 中。在运行 DataSync 任务之前,请验证代理与 HDFS 集群的连接。有关更多信息,请参阅测试与存储系统的连接

身份验证

连接到 HDFS 集群时, DataSync 支持简单身份验证或 Kerberos 身份验证。要使用简单身份验证,请提供具有 HDFS 集群读写权限的用户的用户名。要使用 Kerberos 身份验证,请提供 Kerberos 配置文件、Kerberos 密钥表 (keytab) 文件和 Kerberos 主体名称。Kerberos 主体的凭据必须位于提供的密钥表文件中。

加密

使用 Kerberos 身份验证时, DataSync 支持在 DataSync 代理和 HDFS 集群之间传输数据时对其进行加密。通过使用 HDFS 集群上的保护质量 (QOP) 配置设置以及在创建 HDFS 位置时指定 QOP 设置来加密您的数据。QOP 配置包括数据传输保护和远程程序调用(RPC)保护设置。

DataSync 支持以下 Kerberos 加密类型:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

您还可以使用透明数据加密 (TDE) 配置 HDFS 集群进行静态加密。使用简单身份验证时,对启用 TDE 的集群进行 DataSync 读取和写入。如果您要使用将数据复制 DataSync 到启用 TDE 的集群,请先在 HDFS 集群上配置加密区域。 DataSync 不创建加密区域。

创建 HDFS 位置

配置一个可以在 DataSync传输中使用来源或目的地的位置。

开始之前:通过执行以下操作验证代理与 Hadoop 集群之间的网络连接:

创建 HDFS 位置
  1. 通过 https://console.aws.amazon.com/datasync/ 打开Amazon DataSync主机。

  2. Locations (位置) 页面上,选择 Create location (创建位置)

  3. 对于位置类型,选择 Hadoop Distributed File System(HDFS)。您可以稍后将此位置配置为源或目标。

  4. 对于代理,从可用代理列表中选择一个或多个要使用的代理。代理连接到您的 HDFS 集群,在 HDFS 集群和之间安全地传输数据 DataSync。

  5. 对于 NameNode,提供 HDFS 群集的主集群的域名或 IP 地址 NameNode。

  6. 对于文件夹,输入 HDFS 集群 DataSync 上用于数据传输的文件夹。当该位置用作任务源时,会 DataSync 将文件复制到提供的文件夹中。当您的位置被用作任务的目的地时, DataSync 会将所有文件写入提供的文件夹。

  7. 要设置块大小复制因子,请选择其他设置。默认块大小为 128 MiB,任何提供的块大小必须是 512 字节的倍数。将数据传输到 HDFS 集群 DataNodes 时,默认复制因子是三。

  8. 在 “安全” 部分中,选择 HDFS 集群上使用的身份验证类型

    • 简单 — 对于用户,在 HDFS 集群上指定具有以下权限的用户名(取决于您的用例):

      • 如果您计划将此位置用作源位置,请指定仅具有读取权限的用户。

      • 如果您计划将此位置用作目标位置,请指定具有读写权限的用户。

      (可选)指定 HDFS 集群的密钥管理服务器(KMS)的 URI。

    • Kerberos — 指定有权访问您的 HDFS 集群的 Kerberos 主体。接下来,提供包含所提供的 Kerberos 主体的KeyTab 文件。然后,提供 Kerberos 配置文件。最后,在 RPC 保护和数据传输保护下拉列表中指定传输保护中的加密类型。

  9. (可选)标签是键值对,帮助您管理、筛选和搜索位置。添加标签是可选的。我们建议使用标签对资源进行命名。

  10. 选择创建地点

不支持的 HFFS 功能

目前,HDFS 的以下功能不支持 HDFS 的以下功能 DataSync:

  • 使用 Kerberos 身份验证时的透明数据加密 (TDE)

  • 配置多个 NameNodes

  • 通过 HTTP (httpFS) 的 Hadoop HDFS

  • POSIX 访问控制列表 (ACL)

  • HDFS 扩展属性 (xattrs)