MinerU 系列教程第六课：VLM 后端 - 视觉语言模型的力量

张

张建站

2026/4/18 3:28:26

10分钟阅读

MinerU 系列教程第六篇本篇教程将深入 VLM 后端的端到端推理架构。在上一课中我们看到 Pipeline 后端如何用 7+ 个专用模型组成流水线，本课将展示一种截然不同的设计理念 —— 用一个视觉语言模型（VLM）完成所有识别任务。你将了解 6 种推理引擎的选择与配置、MinerUClient 统一接口、二步提取策略，以及 VLM 原始输出如何转换为 MinerU 的标准 Middle JSON 格式。学习目标完成本课学习后，你将能够：理解 VLM 后端的设计理念：一个模型替代多个专用模型掌握 6 种推理引擎（transformers / vllm-engine / vllm-async-engine / lmdeploy-engine / mlx-engine / http-client）的适用场景与配置方式了解MinerUClient统一接口如何屏蔽不同引擎的差异理解二步提取策略（batch_two_step_extract）的设计动机读懂 VLM 输出的块结构（type / bbox / content / angle）掌握从 VLM 输出到 Middle JSON 的完整转换流程（MagicModel块映射）读懂vlm_analyze.py、vlm_magic_model.py

1Panel+Docker私有仓库实战：解决镜像拉取慢/失败问题（含WordPress案例）

1PanelDocker私有仓库实战：解决镜像拉取慢/失败问题（含WordPress案例） 在容器化部署成为主流的今天，Docker镜像的拉取速度直接影响着开发效率和系统稳定性。尤其对于使用1Panel这类轻量级管理面板的用户，镜像拉取失败或…...

2026/4/18 3:24:57 阅读更多 →

【全网首家】Claude Opus 4.7 vs Opus 4.6 实测对比：7 项测试跑完后，我发现升级最值的是 coding 和 debug

Claude Opus 4.7 vs Opus 4.6 实测对比：7 项测试跑完后，我发现升级最值的是 coding 和 debug 通过 Crazyrouter AI API 网关，对 Claude Opus 4.7 和 Opus 4.6 做了 7 组真实场景测试。不是只看发布文案，也不是只看官方说法&#x…...

2026/4/18 3:23:19 阅读更多 →

SerialPlot终极指南：5个技巧掌握实时串口数据可视化

SerialPlot终极指南：5个技巧掌握实时串口数据可视化【免费下载链接】serialplot Small and simple software for plotting data from serial port in realtime. 项目地址: https://gitcode.com/gh_mirrors/se/serialplot SerialPlot是一款专业级串口数据可视…...

2026/4/18 3:15:35 阅读更多 →