关键词Gauss分布式、CN Deleted摘要GaussDB分布式性能环境准备阶段批量insert数据导致DNreadonlyCN节点Deleted整个集群挂起不可用。调整阈值datastorage_threshold_value_check95后DN自动恢复nomal但是CN依然为deleted状态需要手动修复问题描述业务跑批时节点异常查看集群状态显示1个CN节点被剔除状态为Deleted。过程与结果需要分析定位问题原因并解决报错信息登陆TPOPS监控平台发现CN进程异常如下所示查看节点状态信息如下登陆到业务节点IP执行如下命令查询实例状态确认DN是否只读。su - Rubysource gauss_env_filecm_ctl query -Cvd如下图CN为Deleted剔除状态查看cm_agent日志cd $GAUSSLOG/cm/cm_agentvi cm_agent-20X-*-*_*-current.log 和 故障期间的cm_agent-2026-03-10_171303.log报错信息如下1、2026-03-10 21:12:38.377故障前兆CPU/内存爆高(CPU 使用率90.92%内存使用率91.54%)系统资源严重不足2、2026-03-10 21:12:41.588CM 主动清理会话cm_agent 收到指令cancel_session msg from cm_servercm_agent notify cn 5001 to cancel session.3、2026-03-10 21:12:53.761所有 DN 拒绝与 cn_5001 通信connection_reject_nodescn_5001 timeout 30超时30s设置黑名单4、2026-03-10 21:12:54.207CM 正式杀死 cn_5001CN 是被 CM 主动强制 kill不是自己挂掉cn_5001 已被删除且未处于恢复模式。2026-03-10 21:12:54.207 tid516161 StartAndStop ASYN LOG: cn_5001 is killed because disk fault or nic fault or be dropped, g_cnDiskDamage0,g_cnNicDown0, dropped_coordinatorId5001,kill_delete_cn1, nodeFault0.5、2026-03-10 21:12:59.556CN 进程消失端口 8000 无法连接6、连续多次自动修复全部失败cn_5001 cant be repaired: diskUsage 85 is bigger than readOnlyThreshold 80 The conditions for repairing cn are not satisfactory.不允许修复 CN,不允许启动 CN ,CN 永久下线尝试使用gs_replace 对cn节点进行修复[Rubygaussdb-0002 cm_agent]$ gs_replace -t config -h 192.168.0.156修复成功后重启修复节点gs_replace -t start -h 192.168.0.156cm_ctl query -Cvipd查看集群状态恢复为正常状态normal管理/技术根因cn_5001是被 CM 主动 kill 掉的原因是磁盘使用率 85% 超过只读阈值 80%触发保护机制自动修复因为/data盘超过阈值无法写入CN被deleted剔除经验与教训对GaussDB数据库批量insert数据库或者其他批量作业时候需要tpops监控平台监控数据库节点各类指标是否异常等问题及时发现及时处理。故障组件节点问题可以使用TPOPS监控平台或者gs_replace 进行尝试修复