标签: nutch

从nutch获取链接

我正在使用nutch 1.3来抓取一个网站.我想获取一个已抓取的网址列表,以及来自网页的网址.

我获取使用readdb命令爬网的URL列表.

bin/nutch readdb crawl/crawldb -dump file

Run Code Online (Sandbox Code Playgroud)

有没有办法通过阅读crawldb或linkdb找出页面上的网址？

在org.apache.nutch.parse.html.HtmlParser我看到的outlinks数组中,我想知道是否有一种从命令行访问它的快捷方法.

web-crawler nutch

sur*_*ajz

lucky-day

10
推荐指数

1
解决办法

7088
查看次数

nutch vs solr indexing

我最近开始研究nutch,我正在努力了解它是如何工作的.据我所知,Nutch基本上用于抓取网络,solr/Lucene用于索引和搜索.但是当我阅读关于nutch的文档时,它说nutch也做了反向索引.它是否在内部使用Lucene进行索引,还是有其他一些用于索引的库？如果它使用solr/lucene进行索引,那么为什么有必要用nutch配置solr,正如nutch教程所说的那样？

索引是否默认完成.我的意思是我运行此命令来开始爬行.索引正在这里发生吗？

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Run Code Online (Sandbox Code Playgroud)

或者仅在这种情况下发生索引.(根据教程:如果您已经设置了Solr核心并希望为其编制索引,则需要将-solr参数添加到爬网命令中,例如)

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

Run Code Online (Sandbox Code Playgroud)

lucene solr nutch

CRS*_*CRS

lucky-day

10
推荐指数

1
解决办法

4177
查看次数

如何在Intellij Idea中打开Ant项目(Nutch Source)？

我想在Intellij IDEA 打开Nutch 2.1源文件(http://www.eu.apache.org/dist/nutch/2.1/).以下是如何在Eclipse中打开它的解释:http://wiki.apache.org/nutch/RunNutchInEclipse

但是我不熟悉Ant(我使用Maven),当我打开源文件时,Intellij不知道很多类.即:

org.apache.hadoop.mapreduce.JobContext
org.apache.gora.mapreduce.GoraMapper

Run Code Online (Sandbox Code Playgroud)

如何将它们添加到库中或我该怎么办？

ant intellij-idea nutch

kam*_*aci

2013 03-12

9
推荐指数

1
解决办法

9743
查看次数

Apache Nutch - 路径问题

我正在尝试按照本指南设置Apache Nutch来抓取URL .作为一个较老的指南(该指南适用于1.x,我使用的是2.3),我对结构做了必要的修改.但是,当我尝试运行爬网时,我收到此错误:

root@IndiStage:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2
No SOLRURL specified. Skipping indexing.
Injecting seed URLs
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
Error running:
  /usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Failed with exit value 1.
root@IndiStage:~#

Run Code Online (Sandbox Code Playgroud)

作为Ubuntu(14.04)的新手,我发现很难管理目录结构和路径.

InjectorJob 在... /usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl

JAVA_HOME 被设置为 /usr/lib/jvm/java-7-openjdk-amd64

java apache nutch

Sai*_*nan

lucky-day

9
推荐指数

1
解决办法

520
查看次数

我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎？

我们公司有数以千计的PDF文档.我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎？我们将提供一个基本的Java/JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接.

lucene solr nutch

作者

2008 10-22

8
推荐指数

3
解决办法

8362
查看次数

Nutch:在Java中调用,而不是命令行？

我是厚的还是没有办法通过编程方式通过一些Java代码调用Apache Nutch？关于如何执行此操作的文档(或指南或教程)在哪里？谷歌让我失望了.所以我实际上尝试了Bing.(是的,我知道,可悲.)想法？提前致谢.

(另外,如果Nutch是一个废话,那么任何其他用Java编写的爬行器在互联网规模上都可以用实际文档证明是可靠的吗？)

java web-crawler nutch

Chr*_*sJF

2018 01-24

8
推荐指数

1
解决办法

2154
查看次数

您之前使用elasticsearch索引过nutch抓取结果吗？

有没有人有幸为nutch编写自定义索引器以使用elasticsearch索引爬网结果？或者你知道任何已经存在的东西吗？

lucene full-text-search web-crawler nutch elasticsearch

nei*_*ldf

2012 02-14

8
推荐指数

2
解决办法

2964
查看次数

如何生成海量数据？

我正在用nutch和hadoop做一些测试,我需要大量的数据.我想从20GB开始,到100GB,500GB,最终达到1-2TB.

问题是我没有这么多数据,所以我正在考虑如何制作它.

数据本身可以是任何类型.一个想法是获取一组初始数据并复制它.但它不够好,因为需要彼此不同的文件(相同的文件被忽略).

另一个想法是编写一个程序,用于创建具有虚拟数据的文件.

还有其他想法吗？

java hadoop nutch bigdata

AAa*_*Aaa

2012 01-01

8
推荐指数

1
解决办法

1252
查看次数

使用Nutch重新抓取网址仅适用于更新的网站

我用Nutch 2.1抓取了一个URL,然后我想在更新后重新抓取页面.我怎样才能做到这一点？我如何知道页面已更新？

apache lucene solr web-crawler nutch

Ilc*_*MKD

2013 01-10

8
推荐指数

2
解决办法

3957
查看次数

Nutch抓取后的Solr索引失败,报告"作业失败"

我在我的本地计算机上托管了一个站点,我正在尝试使用Nutch和Solr中的索引进行爬网(两者也在我的本地计算机上).我按照Nutch网站(http://wiki.apache.org/nutch/NutchTutorial)上的说明安装了Solr 4.6.1和Nutch 1.7 ,我在浏览器中运行Solr没有问题.

我正在运行以下命令:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 1 -topN 2

Run Code Online (Sandbox Code Playgroud)

爬网工作正常,但是当它尝试将数据放入Solr时,它会失败并显示以下输出:

Indexer: starting at 2014-02-06 16:29:28
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
SOLRIndexWriter
    solr.server.url : URL of the SOLR instance (mandatory)
    solr.commit.size : buffer size when sending to SOLR (default 1000)
    solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
    solr.auth : use authentication (default false)
    solr.auth.username : use authentication (default false) …

Run Code Online (Sandbox Code Playgroud)

solr nutch

rld*_*mer

2014 02-07

8
推荐指数

1
解决办法

8439
查看次数