如何构建聚合器?

13 web-services web-crawler nutch aggregation

假设我想从多个来源(可能是旅行,技术或其他)汇总与特定利基相关的信息.我该怎么办?

有一个蜘蛛/爬虫将抓取网页以查找我需要的信息(我如何告诉抓取工具爬什么,因为我不想获得整个网络?)?然后有一个索引系统来索引和组织我抓取的信息,也是一个搜索引擎?

像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗?你还推荐别的吗?

或者你能推荐另一种方法吗?

例如,Techmeme.com是如何构建的?(它是技术新闻的聚合器,它完全自动化 - 直到最近他们还增加了一些人为干预).建立这样的服务需要什么?

或者Kayak.com如何汇总他们的数据?(这是旅行聚合服务.)

mon*_*ksy 8

这一切都取决于您正在寻找的聚合器.

类型:

  • 失去定义 - 一般来说,这需要您数据源在确定信息类型时非常灵活(回答问题是这个网站/信息旅行相关?幽默?业务相关?)
  • 具体 - 这放宽了数据存储中的要求,即所有数据都是特定旅行相关的,需要航班,酒店价格等.

典型的聚合器是子程序系统:

  1. Grabber,它搜索并获取需要汇总的所有内容
  2. 汇总 - 这通常通过对数据库的查询来完成,并且可以根据用户偏好[通过编程逻辑]进行调整
  3. 查看 - 这格式化了用户希望看到的信息,并且可以响应用户对所建议项目的喜欢或不喜欢的反馈.


Gab*_*iel 1

对于基本的外观 - 看看这个: http: //en.wikipedia.org/wiki/Aggregator

它将为您提供聚合器的总体概述。

关于如何构建自己的聚合器,如果您正在寻找开箱即用的东西来获得您想要的内容 - 我建议这样做:http ://dailyme.com/

如果您正在寻找代码库/架构来构建您自己的聚合器服务 - 我建议您直接查看一些内容 - 例如:从http://www.reddit.com/打开 Reddit