Java API:下载和计算给定网页的tf-idf

Yuv*_*uvi 5 java lucene solr tf-idf

我是IR技术的新手.

我正在寻找基于Java的API或工具来执行以下操作.

  1. 下载给定的URL集
  2. 提取令牌
  3. 删除停用词
  4. 执行词干
  5. 创建倒置索引
  6. 计算TF-IDF

请告诉我Lucene怎么能对我有所帮助.

关心Yuvi

Yuv*_*l F 3

实际上,TF-IDF是对文档中某个术语的评分,而不是对整个文档的评分。如果您只想要文档中每个术语的 TF-IDF,也许可以使用此方法,而无需接触 Lucene。如果你想创建一个搜索引擎,你需要做更多的事情(例如从给定的 URL 中提取文本,其相应的文档可能不包含原始文本)。如果是这种情况,请考虑使用Solr