Mic*_*riv 6 python readability text-extraction html-content-extraction
我需要在服务器端在运行时从随机网页中提取纯文本。我使用Google App Engine和可读性python端口。有很多。
我使用的是Yuri的最新版本,并且似乎正在积极开发中。我设法使它使用Python 2.7在Google App Engine上运行。现在的“问题”是它返回HTML,而我需要纯文本。
这篇Stackoverflow文章中有关链接提取的建议是使用BeatifulSoup。如果没有其他选择,我会的。BeatifulSoup将是另一个依赖项,因为我使用基于lxml的版本。
我的问题:
小智 5
您可以使用 html2text。这是一个很棒的工具。
这是有关如何将其与 python 可读性工具一起使用的链接 - 它们一起称为 read2text。
http://bretttterpstra.com/scripting-readability-markdownify-for-clipping-web-pages/
希望这可以帮助 :)
不要让它徘徊,我目前的解决方案
代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
text = soup.get_text()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
4925 次 |
| 最近记录: |