本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 收集迁移要求
收集要求

在大规模数据迁移的第一步中，需要在整个组织中收集各种信息。

这些信息有助于建立迁移[过程](https://docs.amazonaws.cn/prescriptive-guidance/latest/strategy-large-scale-migrations/process.html)，对于大规模迁移，这一过程可能包括从源存储到目标存储的多次传输和割接操作（[多波](https://docs.amazonaws.cn/prescriptive-guidance/latest/application-portfolio-assessment-guide/wave-planning.html)完成）步骤。

## 了解迁移的原因


在开始迁移到之前 Amazon，您需要清楚地了解迁移数据的原因。这有助于应对常见的迁移挑战，例如满足截止日期要求、管理资源以及跨团队协调。

如果需要帮助确定迁移的动机，请回答以下问题：
+ 您是否正在释放本地存储空间？
+ 您的硬件是否在硬件支持合同的期限内？
+ 这是为了退出数据中心吗？
+ 迁移时间表如何？
+ 是否要从其他云存储传输数据？
+ 是迁移部分数据集还是完整数据集？
+ 这是为了归档数据吗？
+ 应用程序或用户是否需要定期访问这些数据？

## 解决后勤问题


解决有关存储环境、迁移与组织的一些基本后勤问题：

1. 粗略了解当前的数据存储基础架构。

1. 验证是否需要代[DataSync 理](do-i-need-datasync-agent.md)。例如，如果从本地存储进行传输，则需要代理。

1. 如果需要代理，请确保了解[代理要求](agent-requirements.md)：
   + 代理可以作为 VMware ESXi、Linux 基于内核的虚拟机（KVM）和 Microsoft Hyper-V 虚拟机监控程序上的虚拟机（VM）运行。您还可以在 Amazon中将代理部署为 Amazon EC2 实例。
   + 大规模迁移通常占用大量内存。确保代理具有足够的 RAM。

1. 确定领导层、网络、存储和 IT 部门中需要参与迁移的主要利益相关人。这可能包括：
   + 寻找一位专注于项目及其结果的[专职领导者](https://docs.amazonaws.cn/prescriptive-guidance/latest/strategy-large-scale-migrations/people.html)。
   + 确定迁移数据所有权和分类的负责人。
   + 确定谁管理您的来源，以及谁最终将管理您要迁移到的 Amazon 存储服务。
   + 找出谁将为您的数据创建和管理任何其他流程 Amazon。

1. 建立跨部门沟通渠道。

1. 制定突发事件回滚计划。

1. 记录完整的迁移过程，包括多波完成、验证和割接步骤。将其作为整个迁移的运行手册。在规划和实施迁移时需要更新此流程。

## 查看要迁移的数据


与存储和应用程序团队合作，分析要迁移的数据特征。此信息可帮助您确定可以执行的迁移策略 DataSync。

**Contents**
+ [

### 确定数据使用模式
](#review-migration-data-usage)
+ [

### 识别数据结构和布局
](#review-migration-data-structure)
+ [

### 记录共享和文件夹
](#review-migration-data-document-shares)
+ [

### 分析文件大小
](#review-migration-data-file-sizes)

### 确定数据使用模式

+ 对于经常修改的常用数据，可规划多波增量传输，以避免业务运营中断。
+ 对于可能视为存档的只读数据，可能无需规划多波完成。
+ 如果有多种数据使用模式，需规划独立完成这些不同数据集的迁移波次。例如，存档数据可能是一个波次，其余波次专门用于迁移活动数据。

### 识别数据结构和布局

+ 确定数据是按时间段（年、月、日）还是其他模式组织的。
+ 使用此组织结构规划迁移波次。例如，您可能在一个波次中迁移一整年的存档数据。

### 记录共享和文件夹

+ 创建共享和文件夹清单（包括列明每个共享和文件夹的文件或对象数量）。
+ 使用活动数据集识别共享和文件夹。这些共享和文件夹在迁移期间可能需要增量传输。
+ 查看配[DataSync 额](datasync-limits.md)。这可以帮助您在配置时计划如何对数据集进行分区 DataSync。

### 分析文件大小

+ 大文件（MB 或 GB）的传输数据吞吐量预计会比小文件（KB）更高。
+ 如果您正在处理大量较小的文件，则预计存储系统上的元数据操作会更多，数据吞吐量会降低。 DataSync在比较和验证源位置和目标位置时执行这些操作。

## 确定存储要求


要选择兼容的 Amazon 存储服务来迁移数据，您需要评估源存储系统的特性和性能。

这些信息还可以帮助[安排传输时间](task-scheduling.md)，以最大限度地降低迁移期间对业务运营的影响。

**Contents**
+ [

### 确定源存储支持
](#determine-storage-requirements-protocols)
+ [

### 查看元数据保留要求
](#determine-storage-requirements-metadata)
+ [

### 从源存储收集性能指标
](#determine-storage-requirements-performance)
+ [

### 选择目标 Amazon 存储服务
](#determine-storage-requirements-destination)

### 确定源存储支持


DataSync 可以与各种存储系统配合使用，这些存储系统允许通过 NFS、SMB、HDFS 和 S3 兼容的对象存储客户端进行访问。

如果您要从其他云存储迁移，请确认该提供商是否 DataSync 可以使用。有关受支持的源位置的列表，请参阅[我可以在哪里传输我的数据 Amazon DataSync？](working-with-locations.md)。

### 查看元数据保留要求


DataSync 可以在传输过程中保留您的文件或对象元数据。如何保留元数据取决于您的传输位置以及这些位置是否使用类似类型的元数据。

DataSync 在某些情况下，需要额外的权限才能保留文件元数据，例如 NTFS 自由访问列表 () DACLs。

有关更多信息，请参阅 [了解如何 DataSync 处理文件和对象元数据](metadata-copied.md)。

### 从源存储收集性能指标


测量源存储在平均和峰值工作负载期间的基准 IOPS 与磁盘吞吐量。传输数据会增加源存储系统和目标存储系统的 I/O 开销。

将此性能数据与存储系统的规格参数进行比较，确定可用的性能资源。

### 选择目标 Amazon 存储服务


此时，您可能已经知道哪种 Amazon 存储服务对您的数据有意义。如果不知道，数据使用模式和存储性能是决策时需要考虑的两个方面。例如，如果您有存档数据，则可以考虑使用 Amazon S3，而对于活动数据，则可以考虑使用 Amazon FSx 或 Amazon EFS。

为了帮助您为数据选择正确的对象或基于文件的存储，请参阅[选择 Amazon 存储服务](https://docs.amazonaws.cn/decision-guides/latest/storage-on-aws-how-to-choose/choosing-aws-storage-service.html)。

## 确定网络要求


要使用迁移数据 DataSync，必须在源存储、代理和之间建立网络连接 Amazon。此外还需要规划足够的网络带宽和基础设施。

与网络工程师和存储管理员合作，收集以下网络需求。

**Contents**
+ [

### 评估可用网络带宽
](#datasync-migration-network-bandwidth)
+ [

### 考虑将您的网络连接至的选项 Amazon
](#datasync-migration-network-connection-options)
+ [

### 选择代理通信的服务端点
](#datasync-migration-network-service-endpoint)
+ [

### 规划足够的网络基础设施
](#datasync-migration-network-interfaces)

### 评估可用网络带宽


可用网络带宽会影响传输速度和总迁移时间。如果要从本地存储系统进行传输，请执行以下操作：
+ 与网络团队合作确定平均和峰值带宽利用率。
+ 确定何时可以传输数据，避免日常运营中断。这可以提供迁移波次和割接何时发生的信息。

您可以控制带宽 DataSync 使用量。有关更多信息，请参阅 [为 Amazon DataSync 任务设置带宽限制](configure-bandwidth.md)。

由于来自其他云存储的传输通常发生在公共互联网上，因此这种传输的带宽限制和注意事项通常较少。

### 考虑将您的网络连接至的选项 Amazon


在为 DataSync 传输建立网络连接时，请考虑以下选项：
+ **Amazon Direct Connect**-查看使用 Direct Connect 的[架构和路由示例](direct-connect-architecture.md) DataSync。您可以使用[亚马逊](https://docs.amazonaws.cn/directconnect/latest/UserGuide/monitoring-cloudwatch.html)监控 Direct Connect 活动 CloudWatch。
+ **VPN**：[Amazon Site-to-Site VPN](https://docs.amazonaws.cn/vpn/latest/s2svpn/VPC_VPN.html) 提供每条隧道高达 1.25 Gbps 的吞吐量。
+ **公共互联网**：请联系互联网服务提供商获取网络使用量数据。

### 选择代理通信的服务端点


DataSync 代理使用[服务端点](choose-service-endpoint.md)与 DataSync 服务通信。所用端点类型取决于网络与 Amazon连接的方式。

### 规划足够的网络基础设施


对于您创建的每项传输任务，都会 DataSync 自动生成和管理用于数据传输的网络基础架构。这种基础设施称为*网络接口*或*弹性网络接口*，它们是 Amazon 虚拟私有云（VPC）中代表虚拟网卡的逻辑网络组件。有关更多信息，请参阅[《Amazon EC2 用户指南》](https://docs.amazonaws.cn/AWSEC2/latest/UserGuide/using-eni.html)**。

每个网络接口在目标 VPC 子网中使用一个 IP 地址。要确保有足够的网络基础设施进行迁移，请执行以下操作：
+ 记下 DataSync 将为您的 DataSync目标位置创建的[网络接口](required-network-interfaces.md)的数量。
+ 确保您的子网有足够的 IP 地址来 DataSync完成您的任务。例如，使用代理的任务需要四个 IP 地址。如果为迁移创建了四个任务，则意味着子网中需要 16 个可用的 IP 地址。