Python高效提取与自动化处理Word表格的完整指南

张

张建站

2026/5/9 5:20:29

10分钟阅读

在日常办公和自动化处理场景中Word 文档DOC/DOCX依然是最常见的数据载体之一。许多业务数据、统计报表、合同条款或配置信息往往以表格的形式存在于 Word 文档中。当我们需要对这些表格数据进行进一步处理如导入数据库、转换为 Excel、生成报表或进行数据分析时手动复制粘贴显然效率低下也容易出错。借助 Python 以及专业的文档处理库我们可以实现自动化提取 Word 表格内容并将其保存为结构化文本文件或其他格式。本文将详细介绍如何使用Spire.Doc for Python从 Word 文档中逐个提取表格并将表格内容导出为文本文件。为什么选择 Spire.Doc for Python在众多 Python 文档处理方案中Spire.Doc for Python 是一款面向开发者的专业 Word 文档处理库具备以下显著优势无需依赖 Microsoft Word纯 Python 实现适合服务器和自动化环境支持完整 Word 结构段落、表格、页眉页脚、样式等均可访问API 设计清晰面向对象逻辑与 Word 文档结构高度一致稳定可靠适合批量处理与企业级应用场景在提取表格这种涉及文档层级遍历的任务中Spire.Doc 提供了非常直观的对象模型使代码既清晰又易于维护。实现思路概述从 Word 中提取表格本质上是对 Word 文档结构的逐层遍历。整体流程如下加载 Word 文档遍历文档中的所有 Section节在每个 Section 中获取所有表格Table遍历表格中的行Row和单元格Cell读取单元格内的段落文本按行列结构拼接表格数据将每个表格保存为独立的文本文件这种方式不仅能够完整保留表格结构也便于后续扩展为 CSV、Excel 或数据库导入逻辑。准备工作在开始之前请确保你的环境已准备就绪• Python 3.x• 已安装spire.docSpire.Doc for Python安装方式示例1pipinstallspire-doc安装完成后即可在 Python 项目中直接引用相关模块。示例代码从 Word 提取表格并保存为文本文件下面是完整的示例代码用于从 Word 文档中提取所有表格并将每个表格保存为一个.txt文件。1234567891011121314151617181920212223242526272829303132333435363738394041424344454647fromspire.docimport*fromspire.doc.commonimport*# 创建 Document 实例docDocument()# 加载 Word 文档doc.LoadFromFile(Input.docx)# 遍历文档中的所有节Sectionforsinrange(doc.Sections.Count):# 获取当前节sectiondoc.Sections.get_Item(s)# 获取当前节中的所有表格tablessection.Tables# 遍历当前节中的表格foriinrange(0, tables.Count):# 获取表格对象tabletables.get_Item(i)# 用于存储当前表格数据的字符串tableData# 遍历表格中的所有行forjinrange(0, table.Rows.Count):# 遍历当前行中的所有单元格forkinrange(0, table.Rows.get_Item(j).Cells.Count):# 获取单元格对象celltable.Rows.get_Item(j).Cells.get_Item(k)# 用于存储单元格中的文本内容cellText# 遍历单元格中的所有段落forparainrange(cell.Paragraphs.Count):paragraphTextcell.Paragraphs.get_Item(para).TextcellText(paragraphText )# 将单元格文本追加到表格数据字符串中tableDatacellText# 如果不是最后一个单元格则添加制表符作为列分隔符ifk table.Rows.get_Item(j).Cells.Count-1:tableData\t# 当前行结束后添加换行符tableData\n# 将表格数据保存为文本文件withopen(foutput/Tables/WordTable_{s1}_{i1}.txt,w, encodingutf-8) as f:f.write(tableData)# 关闭文档释放资源doc.Close()代码详解下面我们对核心代码逻辑进行逐步解析帮助你更好地理解其工作原理。1. 加载 Word 文档12docDocument()doc.LoadFromFile(Input.docx)这里创建了一个Document实例并加载指定路径下的 Word 文件。Document是 Spire.Doc 中表示整个 Word 文档的核心对象。2. 遍历文档中的 Section12forsinrange(doc.Sections.Count):sectiondoc.Sections.get_Item(s)在 Word 中文档可能由多个 Section 组成例如分页、不同页眉页脚设置。为了不遗漏任何表格我们需要遍历所有 Section。3. 获取并遍历表格123tablessection.Tablesforiinrange(0, tables.Count):tabletables.get_Item(i)每个 Section 都可能包含多个表格。通过section.Tables可以直接获取该节中的所有表格对象。4. 遍历行和单元格123forjinrange(0, table.Rows.Count):forkinrange(0, table.Rows.get_Item(j).Cells.Count):celltable.Rows.get_Item(j).Cells.get_Item(k)表格由行和单元格组成。这里采用双层循环确保按“行 → 列”的顺序读取数据从而保持原有表格结构。5. 读取单元格中的段落文本123forparainrange(cell.Paragraphs.Count):paragraphTextcell.Paragraphs.get_Item(para).TextcellText(paragraphText )一个单元格中可能包含多个段落例如手动换行。因此需要遍历cell.Paragraphs并将所有段落文本拼接起来确保内容完整。6. 拼接表格数据123tableDatacellTexttableData\ttableData\n• 使用制表符\t分隔列• 使用换行符\n分隔行这种格式非常适合后续转换为 Excel、CSV或直接导入数据库。7. 保存为文本文件12withopen(foutput/Tables/WordTable_{s1}_{i1}.txt,w, encodingutf-8) as f:f.write(tableData)每个表格都会被单独保存为一个文本文件文件名中包含 Section 和 Table 的索引便于区分来源。应用场景拓展基于本文示例代码你可以轻松扩展到更多实际应用场景例如将提取的表格数据转换为CSV 或 Excel自动解析 Word 报表并导入数据库系统批量处理合同或业务文档中的表格信息与数据分析或 BI 工具进行对接Spire.Doc for Python 提供的丰富 API使这些扩展变得非常自然。总结本文介绍了如何使用Spire.Doc for Python从 Word 文档中自动提取表格内容并将其保存为文本文件。通过对 Word 文档结构Section、Table、Row、Cell、Paragraph的逐层遍历我们能够完整、准确地获取表格数据并为后续的数据处理和自动化流程打下坚实基础。如果你正在寻找一种稳定、高效、无需依赖 Office 环境的 Word 表格提取方案那么 Spire.Doc for Python 无疑是一个值得考虑的选择。

CentOS 7.9 系统初始化与 MySQL 5.7 一站式部署指南：从主机名配置到防火墙规则

1. 系统基础配置：从主机名到网络设置刚拿到一台全新的CentOS 7.9服务器时，就像搬进毛坯房需要先通水电。我遇到过不少新手直接跳进MySQL安装，结果后面连不上数据库才发现基础配置没做好。咱们先花10分钟把系统地基打牢。查看当前网络配置…...

2026/5/9 5:19:54 阅读更多 →

RNN与LSTM完整教程：时序数据处理的终极解决方案

RNN与LSTM完整教程：时序数据处理的终极解决方案【免费下载链接】deep-learning-keras-tensorflow Introduction to Deep Neural Networks with Keras and Tensorflow 项目地址: https://gitcode.com/gh_mirrors/de/deep-learning-keras-tensorflow 在当今数…...

2026/4/1 15:43:16 阅读更多 →

基于.NET Core + Vue3构建的开源全栈平台Admin系统，集成 DeepSeek等AIGC大模型

全栈 Admin 管理系统这是一个基于 .NET Core Vue3 构建的开源全栈 Admin 管理系统，前后端分离，具备良好的扩展性与工程化能力，适用于企业级后台管理平台的快速搭建与二次开发。在 AI 能力方面，系统集成 YOLOv8（基于 Y…...

2026/4/1 15:40:34 阅读更多 →

ColorControl：一键掌控多设备显示与智能控制的终极方案

ColorControl：一键掌控多设备显示与智能控制的终极方案【免费下载链接】ColorControl Easily change NVIDIA display settings and/or control LG TVs 项目地址: https://gitcode.com/gh_mirrors/co/ColorControl ColorControl 是一个专注于显示参数优化与智…...

2026/5/8 2:36:29 阅读更多 →

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程 1. 安装Taotoken CLI工具 Taotoken CLI工具提供两种安装方式。对于需要频繁使用CLI的场景，推荐全局安装： npm install -g taotoken/taotoken若只需临时使用或避免全局依赖，可通…...

2026/5/5 1:47:46 阅读更多 →

C语言固件完整性保护全栈方案（含国密SM4+可信执行环境TEE落地代码）

更多请点击： https://intelliparadigm.com 第一章：Shell脚本的基本语法和命令 Shebang 与执行方式每个可执行 Shell 脚本的第一行应以 Shebang（ #!/bin/bash）开头，用于指定解释器路径。保存为 hello.sh 后&#xf…...

2026/5/7 11:30:49 阅读更多 →

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由 1. 准备工作在开始集成 Taotoken 之前，需要确保您的开发环境已满足以下条件。Node.js 版本建议使用 18.x 或更高 LTS 版本。通过运行 node -v 可以检查当前版本。如果尚未安装 openai 包，可以…...

2026/5/8 6:34:49 阅读更多 →