Scrapy和Nutch

Vid*_*dhu 15 python solr web-crawler scrapy web-scraping

我打算在我正在使用的应用程序中使用webcrawling.我对Nutch做了一些研究并使用它进行了一些初步测试.但后来我遇到了scrapy.但是当我做了一些初步研究并浏览了关于scrapy的文档时,我发现它只能捕获结构化数据(你必须给出你想要捕获数据的div名称).我正在开发的应用程序的后端基于Python,我理解scrapy是基于Python的,有些人认为scrapy比Nutch更好.

我的要求是从1000多个不同的网页中捕获数据,并在该信息中搜索相关的关键字.scrapy可以满足相同的要求.

1)如果是,你能指出一些如何做到的例子吗?

2)或Nutch + Solr最适合我的要求

ale*_*cxe 18

Scrapy 在你的情况下将完美地工作.

你不需要给divs名字 - 你可以得到你想要的任何东西:

Scrapy带有自己的提取数据机制.它们被称为XPath选择器(或简称"选择器"),因为它们"选择"XPath表达式指定的HTML文档的某些部分.

另外,您可以使用BeautifulSouplxml从页面内容中提取数据.

此外,scrapy基于扭曲和完全异步和快速.

这里有很多关于scrapy蜘蛛的例子 - 只需看看标签问题.如果您有更具体的问题 - 请问.

希望有所帮助.

  • 最近有一篇文章使用[Scrapy with Solr](http://searchhub.org/2013/06/13/indexing-web-sites-in-solr-with-python/). (7认同)