在 Amazon Athena 中使用 Apache Spark
Amazon Athena 让您可以轻松使用 Apache Spark 以交互方式运行数据分析和探索,无需规划、配置或管理资源。在 Athena 上运行 Apache Spark 应用程序意味着,无需额外配置即可提交 Spark 代码进行处理和直接接收结果。Amazon Athena 上的 Apache Spark 无服务器,可通过提供即时计算实现自动按需扩展,从而满足不断变化的数据卷和处理要求。
在发行版本 PySpark 引擎版本 3 中,您可以使用 Amazon Athena 控制台中简化的笔记本体验,以通过 Python 或 Athena notebook API 开发 Apache Spark 应用程序。
在 Apache Spark 版本 3.5 发行版中,您可以从 Amazon SageMaker 融通式合作开发工作室笔记本或您首选的兼容 Spark Connect 客户端运行 Spark 代码。
Amazon Athena 提供以下功能:
-
控制台用法:从 Amazon Athena 控制台提交 Spark 应用程序(仅限 Pyspark 引擎版本 3)。
-
脚本编写 – 在 Python 中以交互方式快速构建和调试 Apache Spark 应用程序。
-
动态扩展 – Amazon Athena 会自动确定运行任务所需的计算和内存资源,并不断相应地将这些资源扩展到您指定的最大值。这种动态扩展可以在不影响速度的情况下降低成本。
-
笔记本体验:使用 Amazon SageMaker AI 融通式合作开发工作室笔记本,通过熟悉的界面创建、编辑和运行计算。在 Pyspark 引擎版本 3 中,您可以使用 Athena 控制台内笔记本,其与 Jupyter notebook 兼容,并且包含按顺序执行计算的单元格列表。单元格内容可以包括代码、文本、Markdown、数学运算、绘图和富媒体。
有关其他信息,请参阅 Amazon 大数据博客中的 Run Spark SQL on Amazon Athena Spark