The*_*ner 6 python web-crawler
我对python有中级知识.如果我必须在python中编写一个Web爬虫,我应该遵循什么,我应该从哪里开始.有没有具体的啧啧?任何建议都会有很大的帮助..谢谢
Tim*_*ara 7
我强烈建议你看一下Scrapy.该库可以与BeautifulSoup或任何首选的HTML解析器一起使用.我个人将它与lxml.html一起使用.
开箱即用,您可以免费获得以下几项内容:
CrawlSpider
Gil*_*wes 5
你肯定需要一个html解析库.为此你可以使用BeautifulSoup.您可以在官方页面中找到大量用于获取网址和处理返回的html的示例和教程:http://www.crummy.com/software/BeautifulSoup/
raz*_*taz 5
如果您仍想从头开始编写,那么您将需要使用mechanize模块.它包括模拟浏览器所需的一切,并自动获取网址.我会多余,也会说BeautifulSoup解析你提取的任何html.否则,我会选择Scrapy ......
got*_*nes 3
为什么不寻找已经满足您需要的现有代码呢?如果您需要自己构建一个,仍然值得查看现有代码并对其进行解构以弄清楚它是如何工作的。
归档时间:
15 年,5 月 前
查看次数:
3999 次
最近记录:
9 年,11 月 前