相关疑难解决方法(0)

如何使用python-docx从现有docx文件中提取文本

我正在尝试使用python-docxmodule(pip install python-docx),但它似乎非常混乱,因为在github repo测试样本中他们使用的是opendocx函数,但在readthedocs中他们正在使用Document类.即使他们只是展示如何将文本添加到docx文件而不是读取现有文件？

第一个(opendocx)不起作用,可能会被弃用.对于第二种情况,我试图使用:

from docx import Document

document = Document('test_doc.docx')

print document.paragraphs

Run Code Online (Sandbox Code Playgroud)

它返回了一份清单 <docx.text.Paragraph object at 0x... >

然后我做了:

for p in document.paragraphs:
    print p.text

Run Code Online (Sandbox Code Playgroud)

它返回了所有文本,但缺少一些东西.控制台上的文本中不存在所有URL(CTRL + CLICK转到URL).

有什么问题？为什么缺少网址？

如何在不迭代循环的情况下获得完整的文本(类似open().read())

python python-2.7 python-3.x python-docx

Nan*_*ncy

2014 08-10

39
推荐指数

6
解决办法

8万
查看次数

标签统计

python ×1

python-2.7 ×1

python-3.x ×1

python-docx ×1

如何使用python-docx从现有docx文件中提取文本

标签 统计

标签统计