有没有一种方法可以使用可读性和python来提取文本，而不是HTML？

Question

我需要在服务器端在运行时从随机网页中提取纯文本。我使用Google App Engine和可读性python端口。有很多。

gfxmonk的早期版本，基于BeautifulSoup
minvolai基于gfxmonk的版本使用的是lxml而不是BeautifulSoap，尽管它引入了对lxml的依赖，但使其速度更快（根据minvolai，请参阅项目页面）。
Yuri Baburov又名buriy的版本。与minvolai相同，取决于lxml。还取决于chardet 来检测编码。

我使用的是Yuri的最新版本，并且似乎正在积极开发中。我设法使它使用Python 2.7在Google App Engine上运行。现在的“问题”是它返回HTML，而我需要纯文本。

这篇Stackoverflow文章中有关链接提取的建议是使用BeatifulSoup。如果没有其他选择，我会的。BeatifulSoup将是另一个依赖项，因为我使用基于lxml的版本。

我的问题：

Answer 1

您可以使用 html2text。这是一个很棒的工具。

这是有关如何将其与 python 可读性工具一起使用的链接 - 它们一起称为 read2text。

http://bretttterpstra.com/scripting-readability-markdownify-for-clipping-web-pages/

希望这可以帮助：）

Answer 2

不要让它徘徊，我目前的解决方案

代码：

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html) 
text =  soup.get_text()