本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
迁移到亚马逊密钥空间
Amazon Keyspaces(适用于 Apache Cassandra)是一项可扩展、高度可用和托管的 Apache Cassandra 兼容的数据库服务。您可以使用本节中的步骤,将数据从本地运行的 Cassandra 数据库或在亚马逊弹性计算云 (Amazon EC2) 上迁移到亚马逊密钥空间。
我们建议您遵循以下最佳实践,以确保迁移成功:
-
将迁移分解为较小的组件。
考虑以下迁移单位及其在原始数据大小方面的潜在占用空间。分一个或多个阶段迁移少量数据可能有助于简化迁移。
按集群 — 一次性迁移所有 Cassandra 数据。这种方法可能适用于较小的集群。
按键空间或表-将迁移分成几组密钥空间或表。这种方法可以帮助您根据每个工作负载的要求分阶段迁移数据。
按数据 — 考虑迁移特定用户组或产品的数据,以进一步缩小数据规模。
-
根据简单性确定要先迁移哪些数据的优先顺序。
考虑一下您是否有可以更轻松地首先迁移的数据,例如,在特定时间内未发生变化的数据、来自夜间批处理作业的数据、在离线时间未使用的数据或来自内部应用程序的数据。
-
使用特定的工具。
使用 cqlsh
COPY FROM
命令快速开始将数据加载到亚马逊密钥空间。cqlsh 包含在 Apache Cassandra 中,最适合加载小型数据集或测试数据。有关step-by-step说明,请参见教程:使用 cqlsh 下载亚马逊Keyspaces。对于包含大型数据集的生产工作负载,您可以使用适用于 Apache Cassandra 的DataStax批量加载器使用命令将数据加载到亚马逊密钥空间。
dsbulk
DSBulk 提供更强大的导入功能,可从GitHub存储库中获得。有关step-by-step说明,请参见教程:使用 DSBulk 将数据加载到亚马逊Keyspaces。 要了解如何使用 Apache Cassandra Spark 连接器向亚马逊密钥空间写入数据,请参阅。将亚马逊密钥空间与 Apache Spark 集成
对于复杂的迁移,可以考虑使用提取、转换和加载 (ETL) 工具。您可以使用Amazon Glue来快速有效地执行数据转换迁移。有关更多信息,请参阅使用将 Apache Cassandra 工作负载迁移到亚马逊密钥空间。Amazon Glue