如何构建聚合器？

Question

假设我想从多个来源(可能是旅行,技术或其他)汇总与特定利基相关的信息.我该怎么办？

有一个蜘蛛/爬虫将抓取网页以查找我需要的信息(我如何告诉抓取工具爬什么,因为我不想获得整个网络？)？然后有一个索引系统来索引和组织我抓取的信息,也是一个搜索引擎？

像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗？你还推荐别的吗？

或者你能推荐另一种方法吗？

例如,Techmeme.com是如何构建的？(它是技术新闻的聚合器,它完全自动化 - 直到最近他们还增加了一些人为干预).建立这样的服务需要什么？

或者Kayak.com如何汇总他们的数据？(这是旅行聚合服务.)

Answer 1

这一切都取决于您正在寻找的聚合器.

Answer 2

对于基本的外观 - 看看这个： http: //en.wikipedia.org/wiki/Aggregator

它将为您提供聚合器的总体概述。

关于如何构建自己的聚合器，如果您正在寻找开箱即用的东西来获得您想要的内容 - 我建议这样做：http ://dailyme.com/

如果您正在寻找代码库/架构来构建您自己的聚合器服务 - 我建议您直接查看一些内容 - 例如：从http://www.reddit.com/打开 Reddit