相关疑难解决方法(0)

如何使用python-docx从现有docx文件中提取文本

我正在尝试使用python-docxmodule(pip install python-docx),但它似乎非常混乱,因为在github repo测试样本中他们使用的是opendocx函数,但在readthedocs中他们正在使用Document类.即使他们只是展示如何将文本添加到docx文件而不是读取现有文件?

第一个(opendocx)不起作用,可能会被弃用.对于第二种情况,我试图使用:

from docx import Document

document = Document('test_doc.docx')

print document.paragraphs
Run Code Online (Sandbox Code Playgroud)

它返回了一份清单 <docx.text.Paragraph object at 0x... >

然后我做了:

for p in document.paragraphs:
    print p.text
Run Code Online (Sandbox Code Playgroud)

它返回了所有文本,但缺少一些东西.控制台上的文本中不存在所有URL(CTRL + CLICK转到URL).

有什么问题?为什么缺少网址?

如何在不迭代循环的情况下获得完整的文本(类似open().read())

python python-2.7 python-3.x python-docx

39
推荐指数
6
解决办法
8万
查看次数

标签 统计

python ×1

python-2.7 ×1

python-3.x ×1

python-docx ×1