建议使用Django构建搜索引擎

Question

我是网络爬行新手.我将构建一个搜索引擎,爬虫可以保存Rapidshare链接,包括Rapidshare链接找到的URL ...

换句话说,我打算建立一个类似的网站 filestube.com

经过一番搜索,我发现Scrapy适用于Django.我试图找到与Django的nutch集成,但一无所获

我希望你能给我建议建立这种网站...特别是爬虫

Answer 1

最着名的可插拔应用程序是Django-Haystack,它允许您连接到多个搜索后端:

haystack允许您使用看起来像Django自己的Queryset语法的API直接使用这些搜索引擎(所有搜索引擎都有自己的API和方言).

如果你在抓取工具之后,无论你使用什么工具:BeautifulSoup或Scrappy,你都可以自己编写python代码,解析你要解析的内容,然后填充你的django模型.
这甚至可以是单独的python脚本,可在commands.py模块中找到.

如果您要搜索大量文件,则可能需要一个索引,该索引经常重建并允许快速搜索而无需点击django ORM.
使用Solr索引(例如)使您可以动态创建其他字段,例如基于真实模型字段的虚拟字段(例如:拆分作者名字和姓氏,添加大写文件标题字段,等等)

当然,如果您不需要快速索引,关键字提升或语义分析,您仍然可以在几个django模型字段上进行经典的全文搜索.