从OOM到Recovery Mode：一次Postgres数据库异常重启的深度排查

张

张建站

2026/5/16 10:37:04

10分钟阅读

从OOM到Recovery Mode：一次Postgres数据库异常重启的深度排查

1. 当Postgres突然罢工一次OOM引发的恢复模式之旅那天早上刚到公司就收到开发同事的连环夺命call数据库又挂了页面全是报错打开终端一看熟悉的the database system is in recovery mode赫然在目。这已经是本周第三次了每次都是突然出现过几分钟又自动恢复。作为团队里负责基础设施的消防员我决定这次一定要揪出这个幽灵问题的真凶。先给大家科普下这个报错的含义。当PostgreSQL显示recovery mode时就像电脑突然蓝屏后进入安全模式——它正在尝试从异常状态中恢复。正常情况下这应该发生在管理员手动重启时但我们的数据库却像中了邪一样自己反复横跳。更诡异的是监控系统显示服务器CPU、内存、磁盘都还有余量这完全不符合常规的故障特征。2. 第一现场从应用日志到系统内核的追踪2.1 表象之下的线索首先从最明显的应用日志入手。在Kibana里过滤出报错时间段的日志发现两个关键现象报错前会有短暂的I/O error提示每次恢复模式持续约90秒这让我首先怀疑是磁盘问题。立刻SSH到服务器执行iostat -x 1 10结果显示磁盘utilization确实偶尔会冲到100%但持续时间极短。更奇怪的是有时候应用报I/O错误时磁盘指标却完全正常。这种矛盾暗示着问题可能不在I/O层面。2.2 深入Postgres日志转战/var/lib/postgresql/current_log用grep过滤关键时间点grep recovery postgresql-2023-08-15.log发现每次进入恢复模式前都有一条记录LOG: received fast shutdown request这太反常了——没人发过shutdown指令继续往前翻又发现LOG: server process (PID 25678) was terminated by signal 9: Killed信号9就是著名的SIGKILL相当于系统对进程的枪决。谁会这么暴力地杀掉数据库进程答案呼之欲出OOM Killer。3. 内存杀手的犯罪现场3.1 OOM Killer的作案证据查看系统日志确认猜测journalctl --since 2023-08-15 09:00 --until 2023-08-15 10:00 | grep -i oom果然发现多条记录kernel: Out of memory: Killed process 25678 (postgres) kernel: memory: usage 102400kB, limit 102400kB, failcnt 35824这里暴露了两个关键信息内存使用正好卡在limit值我们的Postgres运行在Docker容器里且设置了-m 100m参数3.2 Docker内存限制的陷阱虽然容器设置了100MB内存限制但通过docker stats观察发现CONTAINER ID NAME MEM USAGE / LIMIT MEM % a1b2c3d4e5f6 postgres 98.7MiB / 100MiB 98.7%内存使用长期处于临界状态。这里有个认知误区很多开发者以为Docker的内存限制像气球一样可以弹性伸缩实际上它更像坚硬的水箱——超过限制就会触发OOM Killer。4. 悬案背后的系统参数之谜4.1 Swap空间的消失事件奇怪的是同样的配置在测试环境却运行良好。对比两个环境的关键参数# 生产环境 sysctl vm.swappiness free -h # 测试环境 sysctl vm.swappiness free -h发现惊人差异参数生产环境测试环境vm.swappiness6010Swap空间08GB4.2 内存分配策略的玄机进一步检查内存相关配置sysctl vm.overcommit_memory sysctl vm.overcommit_ratio发现生产环境采用默认配置vm.overcommit_memory 0严格检查vm.overcommit_ratio 50允许超额50%这种配置下当swappiness60且无swap时系统会在内存使用达60%时就积极准备kill进程而我们的容器正好卡在100MB边界。5. 终极解决方案三重防护体系5.1 紧急止血方案立即采取的临时措施# 临时调整容器内存限制 docker update --memory 200m --memory-swap 300m postgres # 降低swappiness echo 10 /proc/sys/vm/swappiness5.2 中长期优化方案合理配置Swap# 创建4GB交换文件 dd if/dev/zero of/swapfile bs1G count4 chmod 600 /swapfile mkswap /swapfile swapon /swapfile优化Postgres配置# postgresql.conf shared_buffers 64MB work_mem 4MB maintenance_work_mem 32MB容器启动参数优化docker run -d \ --name postgres \ --memory200m \ --memory-swap300m \ --oom-kill-disablefalse \ -e POSTGRES_OOM_ADJUST-500 \ postgres:135.3 监控预警体系配置Prometheus监控规则groups: - name: postgres-alerts rules: - alert: PostgresNearOOM expr: container_memory_usage_bytes{containerpostgres} / container_spec_memory_limit_bytes{containerpostgres} 0.8 for: 5m labels: severity: warning annotations: summary: Postgres memory usage high ({{ $value }}%)6. 经验总结与避坑指南这次排查让我深刻理解了Linux内存管理的复杂性。关键收获不要迷信Docker的内存限制它只是最后的防线不是性能调优工具Swap不是万恶之源合理的swap配置能有效缓冲内存压力OOM Killer的触发条件很微妙涉及swappiness、overcommit等多重因素最讽刺的是我们最初为了提升性能而禁用swap结果反而导致频繁OOM。这就像为了跑得更快而扔掉备用轮胎结果在高速公路上爆胎时束手无策。现在的生产环境我们保持了10%的swappiness并配置了相当于物理内存25%的swap空间半年多来再没出现过类似问题。

告别密集计算：用SpConv稀疏卷积加速3D点云处理（附PyTorch代码示例）

告别密集计算：用SpConv稀疏卷积加速3D点云处理实战指南在自动驾驶和机器人感知领域，LiDAR点云数据的处理一直是计算密集型任务的代表。传统3D卷积神经网络在处理这类数据时，往往需要消耗大量显存和计算资源，而实际上点云数据的有…...

2026/5/16 10:36:05 阅读更多 →

用PyTorch从零手搓一个BERT模型：从数据预处理到训练测试的保姆级教程

用PyTorch从零手搓一个BERT模型：从数据预处理到训练测试的保姆级教程在自然语言处理领域，BERT无疑是一个里程碑式的模型。虽然现在我们可以轻松地通过Hugging Face等库调用预训练好的BERT，但真正理解其内部机制的最佳方式，莫过于…...

2026/5/16 10:33:06 阅读更多 →

DIY混合合成器Datadealer组装指南：从焊接调音到问题排查

1. 项目概述：从零件到乐器，亲手打造你的Datadealer合成器如果你和我一样，对电子音乐制作充满热情，同时又对合成器内部那些闪烁着微光的电路板感到好奇，那么亲手组装一台属于自己的合成器，无疑是件极具吸引力…...

2026/5/16 10:30:16 阅读更多 →

【阳师范学院主办，多高校承协办 | IET出版，往届连续4届EI稳定检索，平均刊后2个月EI检索，EI检索稳定 | 择优至EI期刊】第五届电力工程与电气技术学术会议（ICPEET 2026）

ICPEET 2026 已申请IET (CA) EAI (JA) 出版会议论文（CA）： 会议已申请IET Conference Proceedings (ISSN: 2732-4494) 出版，收录于IET数字图书馆，并提交EI Compendex、Scopus、IEEE Xplore等数据库进行检索。期刊论文…...

2026/5/12 3:35:40 阅读更多 →