Node.Js模块用于提取网页内容?

Dmi*_*kin 4 javascript text text-extraction node.js rss-reader

有人可以推荐Node.Js模块或Javascript库(不基于可读性),可用于从网页和RSS源中提取内容吗?

我找到了一个可以完成这项工作的好的PHP库 - http://fivefilters.org/content-only/ - 但是寻找一个可以做同样事情的Node.Js模块.

谢谢!

小智 11

我为此目的写了一个名为'unfluff'的Node.js模块:

https://github.com/ageitgey/node-unfluff

希望这将解决您的问题.

Unfluff基于流行的"python-goose"和"goose"(Scala)页面提取库,以防您熟悉这些库.