从python中的MS word文件中提取文本

Question

从python中的MS word文件中提取文本

为了在python中使用MS word文件,有python win32扩展,可以在windows中使用.我如何在linux中做同样的事情？有图书馆吗？

Answer 1

使用本机Python docx模块.以下是如何从doc中提取所有文本:

document = docx.Document(filename)
docText = '\n\n'.join([
    paragraph.text.encode('utf-8') for paragraph in document.paragraphs
])
print docText

Run Code Online (Sandbox Code Playgroud)

请参阅Python DocX站点

还可以查看Textract,它可以拉出表格等.

使用正则表达式解析XML会调用cthulu.不要这样做!

这段代码导致了一个错误:paragraph.text.encode('utf-8')for document.paragraphs中的段落TypeError:序列项0:预期的str实例,找到的字节 (3认同)

Answer 2

Joh*_*uhy 20

您可以对antiword进行子进程调用.Antiword是一个linux命令行实用程序,用于从单词doc中转储文本.适用于简单文档(显然它会丢失格式).它可以通过apt,也可以作为RPM,或者你可以自己编译.

Answer 3

Cha*_*had 14

本杰明的回答非常好.我刚刚巩固了......

import zipfile, re

docx = zipfile.ZipFile('/path/to/file/mydocument.docx')
content = docx.read('word/document.xml').decode('utf-8')
cleaned = re.sub('<(.|\n)*?>','',content)
print(cleaned)

Run Code Online (Sandbox Code Playgroud)

我应该重申这仅适用于 docx（Word 2007 或更高版本）。对于 .doc 文件，wvware 是您的最佳选择。根据您的环境，设置可能会很痛苦，但它确实做得很好。 (3认同)
删除XML实体,例如  来自'text':>>>来自xml.sax.saxutils import unescape >>> text = unescape(已清除) (3认同)

Answer 4

Dan*_*ski 11

OpenOffice.org可以用Python编写脚本:请参见此处.

由于OOo可以完美地加载大多数MS Word文件,我会说这是你最好的选择.

没有完美无缺.关闭,但我的经验远远没有完美(OO 2.0 - 3.0). (10认同)
像MS Word N + 1一样完美打开MS Words N文件,并且比MS Word N + 1更好的方式打开MS Words N-1文件,恕我直言 (5认同)

Answer 5

Dav*_*vid 5

我知道这是一个老问题,但我最近试图找到一种从MS word文件中提取文本的方法,到目前为止我发现的最佳解决方案是使用wvLib:

http://wvware.sourceforge.net/

安装库之后,在Python中使用它非常简单:

import commands

exe = 'wvText ' + word_file + ' ' + output_txt_file
out = commands.getoutput(exe)
exe = 'cat ' + output_txt_file
out = commands.getoutput(exe)

Run Code Online (Sandbox Code Playgroud)

就是这样.实际上,我们正在做的是使用commands.getouput函数来运行几个shell脚本,即wvText(从Word文档中提取文本,以及cat来读取文件输出).之后,Word文档中的整个文本将出现在out变量中,随时可以使用.

希望这将有助于将来遇到类似问题的任何人.

归档时间：	17 年，4 月前
查看次数：	56096 次
最近记录：	7 年，6 月前