本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
流处理作业日志管理
流处理作业支持 Spark 应用程序日志和事件日志的日志轮换,以及 Spark 事件日志的日志压缩。这可以帮助您有效管理资源。
日志轮换
流处理作业支持 Spark 应用程序日志和事件日志的日志轮换。日志轮换可防止长时间流处理作业生成大型日志文件,占用可用磁盘空间。日志轮换可帮助您节省磁盘存储空间,并防止由于磁盘空间不足而导致作业失败。有关更多信息,请参阅轮换日志。
日志压缩
当托管日志可用时,流处理作业还支持对 Spark 事件日志进行日志压缩。有关托管日志记录的更多详细信息,请参阅使用托管存储进行日志记录。流处理可以长时间运行,事件数据量会随着时间的推移而增加,并显著增加日志文件大小。Spark History Server 会读取这些事件,将其加载到 Spark 应用程序 UI 的内存中。此过程可能会产生高延迟和高成本,尤其是当 Amazon S3 中存储的事件日志非常大时。
日志压缩可减小事件日志的大小,因此 Spark History Server 在任何时候都不必加载超过 1GB 的事件日志。有关更多信息,请参阅 Apache Spark 文档中的监控和仪表