MinerU 系列教程 第六篇本篇教程将深入 VLM 后端的端到端推理架构。在上一课中我们看到 Pipeline 后端如何用 7+ 个专用模型组成流水线,本课将展示一种截然不同的设计理念 —— 用一个视觉语言模型(VLM)完成所有识别任务。你将了解 6 种推理引擎的选择与配置、MinerUClient 统一接口、二步提取策略,以及 VLM 原始输出如何转换为 MinerU 的标准 Middle JSON 格式。学习目标完成本课学习后,你将能够:理解 VLM 后端的设计理念:一个模型替代多个专用模型掌握 6 种推理引擎(transformers / vllm-engine / vllm-async-engine / lmdeploy-engine / mlx-engine / http-client)的适用场景与配置方式了解MinerUClient统一接口如何屏蔽不同引擎的差异理解二步提取策略(batch_two_step_extract)的设计动机读懂 VLM 输出的块结构(type / bbox / content / angle)掌握从 VLM 输出到 Middle JSON 的完整转换流程(MagicModel块映射)读懂vlm_analyze.py、vlm_magic_model.py