

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 什么是 Amazon EMR 的 Apache Spark 故障排除代理
<a name="spark-troubleshoot"></a>

## 简介
<a name="spark-troubleshooting-agent-intro"></a>

适用于亚马逊 EMR 的 Apache Spark 故障排除代理是一项对话式 AI 功能，可简化亚马逊 EMR、 Amazon Glue 和亚马逊笔记本上 Apache Spark 应用程序的故障排除。 SageMaker 传统的 Spark 故障排除需要对日志、性能指标和错误模式进行大量手动分析，以确定根本原因和代码修复。代理通过自然语言提示、自动工作负载分析和智能代码建议来简化此过程。

您可以使用代理来排除故障 PySpark 和 Scala 应用程序故障。代理会分析您失败的作业，识别性能瓶颈，并提供可行的建议和代码修复，同时让您完全控制实施决策。

**注意**  
作为 Amazon EMR 的一部分，Apache Spark 故障排除代理无需支付额外费用。代理仅提供分析和建议。您只需为运行应用程序以验证任何建议的修复程序时使用的 Amazon EMR 资源付费。

## 架构概述
<a name="spark-troubleshooting-agent-architecture"></a>

故障排除代理有三个主要组件：开发环境中用于交互的兼容 MCP 的人工智能助手、用于处理客户端与 Amazon 服务之间安全通信和身份验证的 [MCP 代理，以及为 Amazon](https://github.com/aws/mcp-proxy-for-aws)亚马逊 EMR、Glue 和亚马逊笔记本电脑提供专门的 Spark 故障排除工具的 Amazon SageMaker Unified Studio 远程 MCP 服务器`(preview)`。 Amazon SageMaker 下图说明了你如何通过 AI Assistant 与 Amazon SageMaker Unified Studio 远程 MCP 服务器进行交互。

![\[Spark 故障排除代理架构。\]](http://docs.amazonaws.cn/emr/latest/ReleaseGuide/images/spark-troubleshooting-agent-architecture.png)


AI 助手将按照以下步骤使用 MCP 服务器提供的专用工具来协调故障排除：
+ **功能提取和上下文构建：**代理自动收集和分析来自 Spark 应用程序的遥测数据，包括 Spark History Server 日志、配置设置和错误跟踪。它提取关键性能指标、资源利用率模式和故障签名，为智能故障排除构建全面的上下文配置文件。
+ **GenAI 根本原因分析器和推荐引擎：**该代理利用 AI 模型和 Spark 知识库来关联提取的特征并确定性能问题或故障的根本原因。它提供诊断见解和分析 Spark 应用程序执行中出了什么问题。
+ **GenAI Spark 代码建议：**根据上一步中的根本原因分析，代理会分析您现有的代码模式，并确定需要修复应用程序故障代码的低效操作。它提供了切实可行的建议，包括具体的代码修改、配置调整和架构改进，并附有具体的示例。

**Topics**
+ [简介](#spark-troubleshooting-agent-intro)
+ [架构概述](#spark-troubleshooting-agent-architecture)
+ [故障排除代理的设置](spark-troubleshooting-agent-setup.md)
+ [使用故障排除代理](spark-troubleshooting-using-troubleshooting-agent.md)
+ [特性和功能](spark-troubleshooting-features.md)
+ [故障排除和问答](spark-troubleshooting-agent-troubleshooting.md)
+ [Spark 故障排除代理工作流程详情](spark-troubleshooting-agent-workflow.md)
+ [提示示例](spark-troubleshooting-agent-prompt-examples.md)
+ [IAM 角色设置](spark-troubleshooting-agent-iam-setup.md)
+ [使用 Spark 故障排除工具](spark-troubleshooting-agent-using-tools.md)
+ [为亚马逊 SageMaker 统一工作室 MCP 配置接口 VPC 终端节点](spark-troubleshooting-agent-vpc-endpoints.md)
+ [Apache Spark 故障排除代理的跨区域处理](spark-troubleshooting-cross-region-processing.md)
+ [使用记录亚马逊 SageMaker 统一工作室 MCP 通话 Amazon CloudTrail](spark-troubleshooting-cloudtrail-integration.md)
+ [Apache Spark 代理的服务改进](spark-agents-service-improvements.md)