python中的web爬虫.我应该从哪里开始,我应该遵循什么？- 需要帮助

Question

我对python有中级知识.如果我必须在python中编写一个Web爬虫,我应该遵循什么,我应该从哪里开始.有没有具体的啧啧？任何建议都会有很大的帮助..谢谢

Answer 1

我强烈建议你看一下Scrapy.该库可以与BeautifulSoup或任何首选的HTML解析器一起使用.我个人将它与lxml.html一起使用.

开箱即用,您可以免费获得以下几项内容:

Answer 2

你肯定需要一个html解析库.为此你可以使用BeautifulSoup.您可以在官方页面中找到大量用于获取网址和处理返回的html的示例和教程:http://www.crummy.com/software/BeautifulSoup/

Answer 3

如果您仍想从头开始编写,那么您将需要使用mechanize模块.它包括模拟浏览器所需的一切,并自动获取网址.我会多余,也会说BeautifulSoup解析你提取的任何html.否则,我会选择Scrapy ......

Answer 4

为什么不寻找已经满足您需要的现有代码呢？如果您需要自己构建一个，仍然值得查看现有代码并对其进行解构以弄清楚它是如何工作的。