我需要一个简单的网站搜索功能为我的mvc应用程序.有些页面是静态的,有些是动态的(比如在cms中输入的新闻文章).我希望搜索能够处理这两个问题.这个产品有什么好处吗?http://www.sitesearchasp.net还有其他吗?
好吧,我是SOLR和Lucene的新手,但是已经让Solr在Tomcat 6.x下运行开箱即用,并且刚刚完成了一些基本的Wiki条目.
我有几个问题,也需要一些建议.
Solr可以索引文件(XML,CSV)中的数据,也可以索引DB.您是否也可以将其指向URI /域,并让它以谷歌的方式为网站编制索引?
如果我的网站有"页面"数据,那么"页面名称","页面内容"等,以及"产品数据",那么"产品名称","SKU"等,我是否需要两个不同的Schema.xml文件?如果是这样,这是否意味着两个不同的Solr实例?
最后,如果你有一个包含大型关系数据库和规范化数据库的项目,你会说下面3个选项的最佳方法是什么?:
在后台运行中间件服务,该服务挖掘数据库并手动创建相关的XML文件,然后发送到SOLR
让SOLR直接索引DB.在这种情况下,最好只将SOLR指向视图,这将抽象所有表关系?
还有其他我不知道的选择吗?
上下文:我们运行的是Windows 2003环境,.NET 3.5,SQLServer 2005/2008
干杯!
我遇到了一个开源爬虫Bixo.有人试过吗?你能分享一下学习吗?我们能否轻松构建定向爬虫(与Nutch/Heritrix相比)?谢谢Nayn
我正在寻找用java编写的Apache Lucene网络爬虫(如果可能或任何其他语言).爬虫必须使用lucene并创建一个有效的lucene索引和文档文件,所以这就是为什么nutch被淘汰的原因......
有没有人知道这样的网络爬虫存在,如果答案是肯定的,我可以找到它.TNX ...