Emr*_*inç 12 javascript python heuristics html-content-extraction
我正在寻找一个类似于Arc90的readability.js的Python /模块/函数等
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
所以我可以给它一些input.html,结果是清理该html页面的" 主要文本 "的版本.我想要这个,以便我可以在服务器端使用它(不同于仅在浏览器端运行的JS版本).
有任何想法吗?
PS:我已经尝试过Rhino + env.js并且该组合有效,但性能是不可接受的,需要几分钟来清理大部分的html内容:((仍然无法找到为什么会有这么大的性能差异).