将亚马逊密钥空间与 Apache Spark 集成 - Amazon Keyspaces (for Apache Cassandra)
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将亚马逊密钥空间与 Apache Spark 集成

Apache Spark 是一个用于大规模数据分析的开源引擎。Apache Spark 使您能够更高效地对存储在亚马逊密钥空间中的数据进行分析。您还可以使用 Amazon Keyspaces 为应用程序提供一致的、single-digit-millisecond从 Spark 读取分析数据的访问权限。开源 Spark Cassandra Connector 简化了亚马逊 Keyspaces 和 Spark 之间的数据读写过程。

亚马逊 Keyspaces 对 Spark Cassandra Connector 的支持通过使用完全托管的无服务器数据库服务,简化了在基于 Spark 的分析管道中运行 Cassandra 工作负载。有了 Amazon Keyspaces,您不必担心 Spark 会争夺与您的表相同的底层基础设施资源。Amazon Keyspaces 表会根据您的应用程序流量自动向上和向下扩展。

以下教程向您介绍使用 Spark Cassandra 连接器向亚马逊密钥空间读取和写入数据所需的步骤和最佳实践。本教程演示了如何通过使用 Spark Cassandra 连接器从文件加载数据并将其写入亚马逊密钥空间表来将数据迁移到亚马逊密钥空间。然后,本教程展示了如何使用 Spark Cassandra Connector 从亚马逊密钥空间读回数据。你可以这样做,以便在基于 Spark 的分析管道中运行 Cassandra 工作负载。