是否可以在Python中读取Word文件(.doc/.docx)

nal*_*eka 3 python ms-word

我想创建一个验证工具;

任何人都可以帮我读取Python中的.doc/.docx文档,以便搜索和比较文件内容.

mar*_*ing 7

对的,这是可能的.LibreOffice(至少)有一个命令行选项来转换可以处理的文件.使用它将文件转换为文本.然后按照例行操作将文本文件加载到Python中.

这在LibreOffice 4.2/Linux上对我有用:

soffice --headless --convert-to txt:Text /path_to/document_to_convert.doc
Run Code Online (Sandbox Code Playgroud)


我尝试了一些方法(包括odt2txt,antiword,zipfile,lpod,uno).上面的soffice命令是第一个简单而无错误的命令.关于在ask.libreoffice.org上使用过滤器的这个问题帮助了我.soffice