小编dsh*_*man的帖子

Python-docx提取的字符串缺少单词

我无法弄清楚为什么“ Delaware”一词没有从下面的代码中提取出来。其他所有字符都会被提取。谁能提供从下面的Docx文件中提取“ Delaware”一词的代码,而无需手动更改文件?

输入:

import docx
import io
import requests

url = 'https://github.com/python-openxml/python-docx/files/1996979/Delaware_Test.docx'
file = io.BytesIO(requests.get(url).content)

for text in docx.Document(file).paragraphs:
    print(text.text)
Run Code Online (Sandbox Code Playgroud)

输出:

适用法律本协议应根据所在州的法律进行解释和解释,但不包括法律冲突规定。《联合国国际货物销售合同公约》的规定不适用于本协议。

最奇怪的部分是,如果我对文档中的“ Delaware”一词(ee.gg.,粗体/粗体,键入该词)进行任何处理然后保存,则“ Delaware”一词不再缺少下次我运行代码。但是,仅保存文件而不更改单词并不能解决问题。您可能会说解决方案是手动更改单词,但实际上我正在处理成千上万个此类文档,而手动逐个更改每个文档没有意义。

使用python-docx时缺少文档文本的答案似乎提供了可能无法提取“ Delaware”的原因,但未提供解决方案。谢谢。

python docx python-3.x python-docx

5
推荐指数
0
解决办法
330
查看次数

如何在 Pandas 和 Jupyter Notebook 中创建一个带有指向本地文件的可点击超链接的表格

我从这篇文章中了解到,我可以链接到 Jupyter Notebook 中的网站: 如何在 pandas 和 Jupyter Notebook 中创建带有可点击超链接的表格

因此,我尝试修改代码以创建一个带有本地文件链接的数据框。但是,当我单击下面代码中的超链接时,没有任何反应。

如何修复下面的代码以使超链接正常工作?

import os
import pandas as pd

data = [dict(name='file1', 
        filepath='C:/Users/username/Documents/file1.docx'),
        dict(name='file2', 
        filepath='C:/Users/username/Documents/file2.docx')]

df = pd.DataFrame(data)

def make_clickable(url):
    name= os.path.basename(url)
    return '<a href="file:///{}">{}</a>'.format(url,name)

df.style.format({'filepath': make_clickable})
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

python python-3.x pandas jupyter-notebook

5
推荐指数
1
解决办法
4339
查看次数