使用Java的web索引器

Ale*_*hew 2 java parallel-processing distributed-computing web-crawler

在Java中开发时,并行系统或分布式系统是否更适合网站爬虫和Web索引器?有哪些框架?

Nik*_*aos 6

你会发现Java最好的爬虫/索引器组合之一是Nutch,它现在是一个Apache项目(参见Wiki),因此是开源的.

特征:

  1. 并行获取,解析和索引以及/或分发
  2. 插件:纯文本,HTML,XML,ZIP,OpenDocument(OpenOffice.org),Microsoft Office(Word,Excel,Powerpoint),PDF,JavaScript,RSS,RTF,MP3(ID3标签)
  3. 本体论
  4. 聚类
  5. MapReduce的
  6. 分布式文件系统(通过Hadoop)
  7. 链接图数据库
  8. NTLM身份验证(Windows/Exchange/etc)