高效传输 PB 级数据 - Amazon Snowball Edge 开发人员指南
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

高效传输 PB 级数据

在传输 PB 级数据时,建议您规划并校准数据传输之间的数据传输。Amazon Snowball根据以下准则,您的现场拥有的 Edge 设备和您的服务器。

规划您的大型传输

要规划您的 PB 级数据传输,建议您采用以下步骤:

第 1 步:了解您要迁移到云中的内容

在您使用创建第一个作业之前Amazon Snowball Edge请确保您知道要传输哪些数据、数据当前的存储位置以及要将数据传输到的目标位置。对于 PB 级或更大型的数据传输,此类行政事务管理工作应能够让您轻松传输。Amazon Snowball边缘设备开始到达。

您可将此数据保存在电子表格或白板中,最大程度地帮助您整理计划迁移到的大量内容。Amazon Web Services 云. 如果你要将数据迁移到Amazon Web Services 云第一次,我们建议您设计云迁移模型。

完成此步骤后,您应了解要迁移到云中的数据总量。

第 2 步:计算您的目标传输速率

估算出您能够以多快的速度将数据传输到与各个服务器连接的 Snowball Edge 设备,这一点很重要。这一估算出的速度即是您的目标传输速率。该速率指您可以期望数据迁移到Amazon Snowball Edge设备考虑到您的本地网络架构的现实情况。

注意

对于大型数据传输,建议使用 Amazon S3 接口传输您的数据。

您需要通过计算将数据的代表性子集传输到 Snowball Edge 设备,或者创建一个 10GB 的虚拟文件来衡量吞吐量,来捕获基准传输速率。

在确定您的目标传输速度时,请谨记您可以通过以下方式来更改速度:更改网络速度、所传输文件的大小以及从本地服务器读取数据的速度。Amazon S3 接口将数据复制到Amazon Snowball Edge设备在条件允许的范围内最快。

第 3 步:确定多少Amazon Snowball您需要的 Edge 设备

根据您在第 1 步确定的要迁移到云中的总数据量、第 2 步中估计的传输速度以及要将数据移至的天数来完成此操作。Amazon确定您需要多少 Snowball Edge 设备才能完成大规模的数据迁移。根据所选的设备类型,Snowball Edge 设备有大约 39.5 TB 和 80 TB 的可用空间。因此,如果你想将 300 TB 的数据移动到Amazon在 10 天之内,您的传输速度为 250 MB/ 秒,你需要四台 Snowball Edge 设备.

第 4 步:创建任务

现在你知道有多少Amazon Snowball您需要的 Edge 设备,您可以为每个设备创建导入任务。由于每个Amazon Snowball Edge设备导入任务仅涉及一个 Snowball Edge 设备,因此,您需要创建多个导入任务。有关更多信息,请参阅 。创建AmazonAmazon Snowball Edge作业

第 5 步:将您的数据分为传输分段

对于包含多个任务的大型数据传输,其最佳实践是将数据分为数个易于管理的小型数据传输分段。这样,您可以一次传输一个分段,或并行传输多个分段。在规划分段时,请确保各个分段数据大小之和适合的Amazon Snowball Edge用于此作业的设备。在对传输数据分段时,请不要多次复制同一文件或目录。以下示例展示了如何将传输数据分段:

  • 您可以制作 10 个分段,分为 8 TB,每个分段为 8 TBAmazon Snowball Edge设备。

  • 对于大型文件,每个文件均可为一个分段,请记住 Amazon S3 中的对象的 5 TB 大小限制。

  • 各分段的大小可有所不同,每个单独的分段都可由相同类型的数据组成例如,一个分段由小型文件组成,另一个分段由压缩存档文件组成,而另一个分段则由大型文件组成等。这种方法有助于确定不同类型文件的平均传输速率。

注意

对于传输的每个文件,均会执行元数据操作。不论文件大小,此开销都是相同的。因此,通过将小文件压缩为更大的捆绑包、批处理您的文件或传输更大的单个文件,您将获得更快的传输速度。

创建此类数据传输分段能够让您轻松快速地解决任何传输问题。这是因为在大型的异构传输运行一天或更长时间后尝试对该传输进行故障排除可能会很复杂。

在您完成 PB 级数据传输规划后,建议您将部分分分段传输到。Amazon Snowball Edge来自服务器的设备来校准您的速度和总传输时间。

校准大型传输

您可以通过传输一组具有代表性的数据传输分段来校准大型传输。换句话说,选择您根据最后一个部分的指南定义的一些数据段并将它们传输到 Snowball Edge 设备。同时,记录每个操作的传输速度和总传输时间。如果校准结果低于目标传输速率,您也许能够同时复制多个数据传输分段。在这种情况下,使用其他数据传输分段来重复校准。

在校准过程中继续添加并行复制操作,直到您发现当前正在传输数据的所有实例的总传输速度呈递减状态。此时,您可以终止最后一个活跃实例,并记下您的新目标传输速率。

有时,使用传输数据的最快方式Amazon Snowball Edge设备将使用以下场景之一并行传输数据:

  • 对单个 Snowball Edge 设备在工作站上使用 S3 接口的多个会话。

  • 对单个 Snowball Edge 设备在多个工作站上使用 S3 接口的多个会话。

  • 具有针对多台 Snowball Edge 设备的 S3 接口的多个会话(使用单个或多个工作站)。

在完成这些步骤后,您应知道能够以多快的速度将数据传输到Amazon Snowball Edge设备。