相关疑难解决方法(0)

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本.如果我从浏览器复制文本并将其粘贴到记事本中,我想要的输出基本相同.

我想要比使用可能在格式不正确的HTML上失败的正则表达式更强大的东西.我见过很多人推荐Beautiful Soup,但是我使用它时遇到了一些问题.首先,它选择了不需要的文本,例如JavaScript源代码.此外,它没有解释HTML实体.例如,我希望' 在HTML源代码中转换为文本中的撇号,就像我将浏览器内容粘贴到记事本中一样.

更新 html2text看起来很有希 它正确处理HTML实体并忽略JavaScript.但是,它并不完全产生纯文本; 它会产生降价,然后必须将其转换为纯文本.它没有示例或文档,但代码看起来很干净.


相关问题:

html python text html-content-extraction

222
推荐指数
12
解决办法
32万
查看次数

使用python imap和电子邮件包获取电子邮件的正文

我想使用python imap和email包检索电子邮件的正文(仅文本).

根据这个SO线程,我使用以下代码:

mail = email.message_from_string(email_body)
bodytext = mail.get_payload()[ 0 ].get_payload()
Run Code Online (Sandbox Code Playgroud)

虽然它在某些情况下工作正常,但有时候我会跟随响应

[<email.message.Message instance at 0x0206DCD8>, <email.message.Message instance at 0x0206D508>]
Run Code Online (Sandbox Code Playgroud)

python email python-2.7

4
推荐指数
2
解决办法
1万
查看次数

标签 统计

python ×2

email ×1

html ×1

html-content-extraction ×1

python-2.7 ×1

text ×1