Python读取doc文件可通过python-docx
库实现核心操作,关键步骤包括:安装库→加载文档→提取段落/表格→处理文本内容。 重点支持.docx
格式(2007+版本),传统.doc
需借助win32com
或格式转换。
分步实现方法
-
安装依赖库
执行pip install python-docx
安装主流库,若需兼容旧版.doc
则追加pip install pywin32
(仅Windows)。 -
基础文本读取
pythonCopy Code
from docx import Document doc = Document("file.docx") for para in doc.paragraphs: print(para.text) # 逐段输出文本
-
表格数据提取
通过doc.tables
遍历单元格:pythonCopy Code
for table in doc.tables: for row in table.rows: for cell in row.cells: print(cell.text)
-
处理旧版.doc文件
方案一:用Word软件另存为.docx
;方案二:通过win32com
调用Word接口转换(需安装MS Word)。
注意事项
- 若文档含复杂格式(图片/批注),需结合
docx
的InlineShape
等对象处理 - 批量操作建议添加异常捕获(如文件权限错误)
- 考虑使用
python-docx2txt
简化纯文本提取场景
掌握上述方法后,可轻松实现自动化文档分析、数据清洗等任务。建议先测试简单文件再处理复杂场景。