Nutch:数据读取和添加元数据

Question

Nutch:数据读取和添加元数据

CRS*_*CRS 5 lucene solr semantic-web web-crawler nutch

我最近开始寻找apache nutch.我可以设置并能够使用nutch抓取我感兴趣的网页.我不太了解如何读取这些数据.我基本上想要将每个页面的数据与一些元数据(现在的一些随机数据)相关联,并将它们存储在本地,稍后将用于搜索(语义).我是否需要使用solr或lucene？我是所有这些的新手.据我所知,Nutch习惯于抓取网页.它是否可以执行一些其他功能,例如向已爬网数据添加元数据？

Answer 1

CRS*_*CRS 3

有用的命令。

开始爬行

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Run Code Online (Sandbox Code Playgroud)

获取已抓取 URL 的统计信息

bin/nutch readdb crawl/crawldb -stats

Run Code Online (Sandbox Code Playgroud)

读取段（获取网页中的所有数据）

bin/nutch readseg -dump crawl/segments/* segmentAllContent

Run Code Online (Sandbox Code Playgroud)

读取段（仅获取文本字段）

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -     noparse -noparsedata

Run Code Online (Sandbox Code Playgroud)

获取每个 URL 的已知链接的所有列表，包括链接的源 URL 和锚文本。

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

Run Code Online (Sandbox Code Playgroud)

获取所有爬取的 URL。还提供其他信息，例如是否已获取、获取时间、修改时间等。

bin/nutch readdb crawl/crawldb/ -dump crawlContent

Run Code Online (Sandbox Code Playgroud)

对于第二部分。即要添加新字段，我计划使用索引额外插件或编写自定义插件。

参考：

这个和这个

归档时间：	13 年，9 月前
查看次数：	2337 次
最近记录：	13 年，9 月前