我正在寻找允许从网站提取文本的算法.我不是指"strip html",或者是数百个允许这样做的库中的任何一个.
因此,例如,对于新闻文章,我想确定标题和所有文本,但不是评论部分等等.
那里有算法吗?谢谢!
algorithm text text-extraction web-scraping
algorithm ×1
text ×1
text-extraction ×1
web-scraping ×1