小编Sco*_*oox的帖子

正文从网站提取文本例如仅提取文章标题和文本而不是网站中的所有文本

我正在寻找允许从网站提取文本的算法.我不是指"strip html",或者是数百个允许这样做的库中的任何一个.

因此,例如,对于新闻文章,我想确定标题和所有文本,但不是评论部分等等.

那里有算法吗?谢谢!

algorithm text text-extraction web-scraping

8
推荐指数
1
解决办法
3881
查看次数

标签 统计

algorithm ×1

text ×1

text-extraction ×1

web-scraping ×1