小编Vla*_*kon的帖子

如何使用正则表达式从带有 Python 的 word 文档中提取问题

我正在使用 docx 库从 word doc 中读取文件,我试图仅使用正则表达式搜索和匹配来提取问题。我找到了无限的方法,但我不断收到“TypeError”。

我试图提取的数据是这样的:

我的经济援助会支付住房费用吗?
校外住宿 - 在对您的学杂费申请经济援助后
,任何剩余资金将作为退款退还给您,该退款将
直接存入(可以通过您的
帐户设置)或以纸质支票的形式邮寄给您。然后,您可以使用
退款来支付租金。重要的是要注意,
在租金到期时可能无法提供经济援助,因此请务必制定
支付租金的计划。我的经济援助会支付住房费用吗?
“金融”“帮助”“房子”
资金“大学橡树”
“钱”“知所”
“支付”“章”
“补助金”“桂冠”

我如何支付我的住房费用?
我如何支付住房费用?

如果还有一种更简单的方法可以将 word doc 导出到不同类型的文件中,那么知道反馈意见会很棒。谢谢

我正在使用正则表达式 101,我尝试了以下正则表达式来仅匹配以问号结尾的句子

".*[?=?]$"
"^(W|w).*[?=?]$"
"^[A-Za-z].*[?=?]$"
Run Code Online (Sandbox Code Playgroud)
import re
import sys
from docx import Document

wordDoc = Document('botDoc.docx')

result = re.search('.*[?=?]$', wordDoc)
print(result)
if result:
    print(result.group(0))
for table in wordDoc.tables:
    for row in table.rows:
        for cell in row.cells:
            print("test")
Run Code Online (Sandbox Code Playgroud)

我希望将匹配的模式保存到目录中,以便将数据导出到 csv 文件

python regex ms-word python-3.7

3
推荐指数
1
解决办法
1384
查看次数

标签 统计

ms-word ×1

python ×1

python-3.7 ×1

regex ×1