我正在尝试使用python-docxmodule(pip install python-docx),但它似乎非常混乱,因为在github repo测试样本中他们使用的是opendocx函数,但在readthedocs中他们正在使用Document类.即使他们只是展示如何将文本添加到docx文件而不是读取现有文件?
第一个(opendocx)不起作用,可能会被弃用.对于第二种情况,我试图使用:
from docx import Document
document = Document('test_doc.docx')
print document.paragraphs
Run Code Online (Sandbox Code Playgroud)
它返回了一份清单 <docx.text.Paragraph object at 0x... >
然后我做了:
for p in document.paragraphs:
print p.text
Run Code Online (Sandbox Code Playgroud)
它返回了所有文本,但缺少一些东西.控制台上的文本中不存在所有URL(CTRL + CLICK转到URL).
有什么问题?为什么缺少网址?
如何在不迭代循环的情况下获得完整的文本(类似open().read())