038、构建高可靠系统:看门狗任务与健康监控从一次深夜产线宕机说起上周产线反馈设备偶发死机,重启后能恢复。现场日志只抓到一句“任务响应超时”,然后整个系统就沉默了。凌晨三点,我对着调试器反复复现,最终定位到一个不起眼的场景:某个低优先级任务因为内存碎片化导致分配阻塞,进而卡住了整个消息队列链。这种问题靠常规日志很难捕捉,系统已经僵了,连错误都没力气上报。这时候才真正体会到,在嵌入式领域,“还活着”比“报告死因”更重要。看门狗不是喂狗那么简单很多人觉得看门狗就是定时喂狗,防止程序跑飞。这种认知太浅了。在RTOS环境下,单纯的硬件看门狗只能告诉你“系统死了”,但不知道“怎么死的”。真正的健康监控,是要在系统还能喘气的时候,就诊断出哪里开始不对劲。// 典型的错误喂狗方式 - 千万别这样写!voidTask1(void*pvParameters)