在 Amazon Athena 中使用 Apache Spark - Amazon Athena
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Amazon Athena 中使用 Apache Spark

Amazon Athena 让您可以轻松使用 Apache Spark 以交互方式运行数据分析和探索,无需规划、配置或管理资源。在 Athena 上运行 Apache Spark 应用程序意味着,无需额外配置即可提交 Spark 代码进行处理和直接接收结果。Amazon Athena 上的 Apache Spark 无服务器,可通过提供即时计算实现自动按需扩展,从而满足不断变化的数据卷和处理要求。

在发行版本 PySpark 引擎版本 3 中,您可以使用 Amazon Athena 控制台中简化的笔记本体验,以通过 Python 或 Athena notebook API 开发 Apache Spark 应用程序。

Apache Spark 版本 3.5 发行版中,您可以从 Amazon SageMaker 融通式合作开发工作室笔记本或您首选的兼容 Spark Connect 客户端运行 Spark 代码。

Amazon Athena 提供以下功能:

  • 控制台用法:从 Amazon Athena 控制台提交 Spark 应用程序(仅限 Pyspark 引擎版本 3)。

  • 脚本编写 – 在 Python 中以交互方式快速构建和调试 Apache Spark 应用程序。

  • 动态扩展 – Amazon Athena 会自动确定运行任务所需的计算和内存资源,并不断相应地将这些资源扩展到您指定的最大值。这种动态扩展可以在不影响速度的情况下降低成本。

  • 笔记本体验:使用 Amazon SageMaker AI 融通式合作开发工作室笔记本,通过熟悉的界面创建、编辑和运行计算。在 Pyspark 引擎版本 3 中,您可以使用 Athena 控制台内笔记本,其与 Jupyter notebook 兼容,并且包含按顺序执行计算的单元格列表。单元格内容可以包括代码、文本、Markdown、数学运算、绘图和富媒体。

有关其他信息,请参阅 Amazon 大数据博客中的 Run Spark SQL on Amazon Athena SparkExplore your data lake using Amazon Athena for Apache Spark