如何使用Scrapy

Lau*_*ălu 3 python web-crawler scrapy

我想知道如何开始基于Scrapy的爬虫.我通过apt-get install安装了该工具,并尝试运行一个示例:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

我从spiders/google_directory.py中破解了代码,但它似乎没有被执行,因为我没有看到我插入的任何打印件.我阅读了他们的文档,但我发现没有任何相关内容; 你有什么想法?

此外,如果您认为对于抓取网站我应该使用其他工具,请告诉我.我对Python工具没有经验,Python是必须的.

谢谢!

lin*_*eak 7

EveryBlock.com 使用lxml,urllib2和Django作为堆栈发布了一些高质量的抓取代码.

Scraperwiki.com充满灵感,充满了python刮刀的例子.

cssselect的简单示例:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]
Run Code Online (Sandbox Code Playgroud)


Pab*_*man 7

您在crawl命令中错过了蜘蛛名称.使用:

$ scrapy crawl directory.google.com
Run Code Online (Sandbox Code Playgroud)

此外,我建议您将示例项目复制到您的家中,而不是在/usr/share/doc/scrapy/examples/目录中工作,因此您可以修改它并使用它:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com
Run Code Online (Sandbox Code Playgroud)