Luc*_*ang 8 python beautifulsoup web-crawler
鉴于一些随机新闻文章,我想编写一个网络爬虫来查找最大的文本正文,然后将其解压缩.目的是提取页面上的实体新闻文章.
最初的计划是使用a 并按其BeautifulSoup findAll(True).getText()值对每个标记进行排序.编辑:不要将它用于html工作,使用lxml库,它是基于python的,比BeautifulSoup快得多.命令(表示提取所有html标签)
但这对大多数页面都不起作用,例如我列举的那个页面,因为大量的文本被分成许多较小的标签,例如段落分隔符.
有人对这个有经验么?任何有关此类事情的帮助都会令人惊叹.
目前我正在使用BeautifulSoup和python,但愿意探索其他可能性.
这里有一些致命的有用的python库,按照它对我帮助程度的排序顺序完成任务:
如果有兴趣,我会发布基准测试.
间接相关的库,你应该安装它们并阅读他们的文档:
使用python(一种相当慢的语言)的许多价值和力量来自它的开源库.当它们结合使用时,它们特别棒,每个人都应该利用它们来解决它们可能遇到的任何问题!
鹅图书馆得到了很多可靠的维护,他们只是添加了阿拉伯语支持,这太棒了!