在 Amazon Athena 中使用 Apache Spark

Amazon Athena 让您可以轻松使用 Apache Spark 以交互方式运行数据分析和探索，无需规划、配置或管理资源。在 Athena 上运行 Apache Spark 应用程序意味着，无需额外配置即可提交 Spark 代码进行处理和直接接收结果。Amazon Athena 上的 Apache Spark 无服务器，可通过提供即时计算实现自动按需扩展，从而满足不断变化的数据卷和处理要求。

在发行版本 PySpark 引擎版本 3 中，您可以使用 Amazon Athena 控制台中简化的笔记本体验，以通过 Python 或 Athena notebook API 开发 Apache Spark 应用程序。

在 Apache Spark 版本 3.5 发行版中，您可以从 Amazon SageMaker 融通式合作开发工作室笔记本或您首选的兼容 Spark Connect 客户端运行 Spark 代码。

Amazon Athena 提供以下功能：

控制台用法：从 Amazon Athena 控制台提交 Spark 应用程序（仅限 Pyspark 引擎版本 3）。
脚本编写 – 在 Python 中以交互方式快速构建和调试 Apache Spark 应用程序。
动态扩展 – Amazon Athena 会自动确定运行任务所需的计算和内存资源，并不断相应地将这些资源扩展到您指定的最大值。这种动态扩展可以在不影响速度的情况下降低成本。
笔记本体验：使用 Amazon SageMaker AI 融通式合作开发工作室笔记本，通过熟悉的界面创建、编辑和运行计算。在 Pyspark 引擎版本 3 中，您可以使用 Athena 控制台内笔记本，其与 Jupyter notebook 兼容，并且包含按顺序执行计算的单元格列表。单元格内容可以包括代码、文本、Markdown、数学运算、绘图和富媒体。

有关其他信息，请参阅 Amazon 大数据博客中的 Run Spark SQL on Amazon Athena Spark 和 Explore your data lake using Amazon Athena for Apache Spark。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

列出命名查询

发布版本

在 Amazon Athena 中使用 Apache Spark

主题