高效传输 PB 级数据 - Amazon Snowball Edge Developer Guide
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

高效传输 PB 级数据

在位于AmazonSnowball Edge 设备您现场的现场和您的服务器根据以下指导原则制定。

规划您的大型传输

要规划您的 PB 级数据传输,建议您采用以下步骤:

第 1 步:了解您要迁移到云中的数据

在使用Amazon SnowballEdge 设备,请确保您知道要传输哪些数据、数据当前的存储位置以及要将数据传输到的目标位置。对于 PB 级或更大型的数据传输,在您的Amazon Snowball边缘设备开始到达。

您可将此数据保存在电子表格或白板中 — 最好让您整理计划迁移到Amazon云。如果您要将数据迁移到Amazon第一次建议您设计一个云迁移模型。

完成此步骤后,您应了解要迁移到云中的数据总量。

第 2 步:计算您的目标传输速率

估算出您能够以多快的速度将数据传输到与各个服务器连接的 Snowball Edge 设备,这一点很重要。这一估算出的速度即是您的目标传输速率。该速率指鉴于此速率,数据能以什么速度迁移到Amazon Snowball根据本地网络架构的实际情况,边缘设备。

注意

对于大型数据传输,建议使用 Amazon S3 Adapter the Snowball 传输您的数据。

要计算您的目标传输速率,请将一小部分具有代表性的数据传输到 Snowball Edge 设备。在传输过程中,运行 snowballEdge status 命令以跟踪传输的进度。传输完成后,将已传输数据的大小与完成传输所用的时间进行比较以估算您当前的传输速度。

在确定您的目标传输速度时,请谨记您可以通过更改网络速度、所传输文件的大小以及从本地服务器读取数据的速度来更改传输速度。Amazon S3 Adapter 将数据复制到Amazon SnowballEdge 设备以条件允许的最快速度提高。

第 3 步:确定多少Amazon SnowballEdge 设备

根据您在第 1 步确定的要迁移到云中的总数据量、第 2 步中估计的传输速度以及要将数据移至Amazon,请确定您需要多少 Snowball Edge 设备才能完成大规模的数据迁移。请记住Amazon SnowballEdge 设备具有约 73 TB 可用空间。因此,如果您想将 300 TB 的数据移动到Amazon在 10 天内,您的传输速度为 250 MB/ 秒,你需要五个 Snowball 边缘设备。

第 4 步:创建您的作业

现在你知道有多少Amazon SnowballEdge 设备,您可以为各个设备创建导入任务。因为每个Amazon SnowballEdge 设备导入任务仅涉及一个 Snowball Edge 设备,您需要创建多个导入任务。有关更多信息,请参阅 。创建 Snowball 边缘 Job

第 5 步:将您的数据分为传输分段

对于包含多个任务的大型数据传输,其最佳实践是将数据分为数个易于管理的小型数据传输分段。通过这种方式,您可以一次传输一个分段,或并行传输多个分段。在规划分段时,请确保各个分段数据大小之和适合Amazon Snowball此作业的边缘设备。在对传输数据分段时,请不要多次复制同一文件或目录。以下示例展示了如何将传输数据分段:

  • 对于,您可以将数据分为 9 个大小为 8 TB 的分段,Amazon SnowballEdge 设备。

  • 对于大型文件,每个文件均可为一个分段,请记住 Amazon S3 中的对象的 5 TB 大小限制。

  • 各分段的大小可有所不同,每个单独的分段都可由相同类型的数据组成 — 例如,一个分段由小型文件组成,另一个分段由压缩存档文件组成,另一个分段由大型文件组成,而另一个分段则由大型文件组成等。这种方法有助于确定不同类型文件的平均传输速率。

注意

对于传输的每个文件,均会执行元数据操作。不论文件大小,此开销都是相同的。因此,通过将小文件压缩为更大的捆绑包、批处理您的文件或传输更大的单个文件,您将获得更快的传输速度。

创建此类数据传输分段能够让您轻松快速地解决任何传输问题。这是因为在大型的异构传输运行一天或更长时间后尝试对该传输进行故障排除可能会很复杂。

在您完成 PB 级数据传输规划后,建议您将部分分段传输到Amazon Snowball边缘设备,以校准您的速度和总传输时间。

校准大型传输

您可以通过传输一组具有代表性的数据传输分段来校准大型传输。换句话说,选择您根据最后一个部分的指南定义的一些数据段并将它们传输到Amazon SnowballEdge 设备。同时,记录每个操作的传输速度和总传输时间。

在执行校准时,请监控来自 snowballEdge status 命令的信息。如果校准结果低于目标传输速率,您也许能够同时复制多个数据传输分段。在这种情况下,使用其他数据传输分段来重复校准。

在校准过程中继续添加并行复制操作,直到您发现当前正在传输数据的所有实例的总传输速度呈递减状态。此时,您可以终止最后一个活跃实例,并记下您的新目标传输速率。

有时,使用Amazon SnowballEdge 设备是在以下场景之一中并行传输数据:

  • 在单个上使用多个 Amazon S3 Adapter 实例Amazon SnowballEdge 设备。

  • 在多个 Snowball Edge 设备上使用多个 Amazon S3 Adapter 实例。

在完成这些步骤后,您应知道能够以多快的速度将数据传输到Amazon SnowballEdge 设备。