标签: nutch

如何使用java读取nutch在segment文件夹上生成的内容数据

我正在尝试读取段文件夹中的内容数据.我认为内容数据文件是以自定义格式编写的

我尝试了nutch的Content类,但它无法识别格式.

nutch

1
推荐指数
1
解决办法
1667
查看次数

如何在 Windows 7 x64 中安装和运行 Nutch

我想在我的 Windows 7 x64 上运行 Nutch。我有来自apache.spinellicreations.com/nutch/ 的Nutch 版本 1.5.1 和 2 。

我使用了wiki.apache.org/nutch/NutchTutorial 上的教程。但是我在第二步搞砸了,我无法验证安装。其他步骤很难理解...

安装和使用nutch的步骤是什么?

installation web-crawler nutch windows-7

1
推荐指数
1
解决办法
5968
查看次数

如何使Nutch 2.3.1与ElasticSearch 5.3.2一起使用?

我已经在Ubuntu 16.04上启动并运行了ElasticSearch 5.3.2,并希望使用Nutch来爬网网站。我已经编译了Nutch 2.3.1,并成功地抓取了它,但是当我将其索引到Elastic中时,会出现错误。

命令:

bin / nutch索引-all

输出:

误差

在/var/logs/elasticsearch/elasticsearch.log文件中,我收到以下消息:

elasticsearch日志文件

有谁知道此错误的含义以及如何解决此问题?谢谢

nutch elasticsearch

1
推荐指数
1
解决办法
1816
查看次数

我不知道符号是什么,"#"在nutch的HttpBase.java的下面的src中是什么意思

当我来到nutch的下面的src时HttpBase.java,我不知道符号是什么,"#"在作者的描述中是什么意思:

// get # of threads already accessing this addr
Integer counter = (Integer)THREADS_PER_HOST_COUNT.get(host);
Run Code Online (Sandbox Code Playgroud)

java hadoop nutch

0
推荐指数
1
解决办法
107
查看次数

有关Nutch,Hadoop,Solr,MapReduce和Mahout的信息

PS:如果我在任何方面都错了,请纠正我

我正在用Nutch和Solr建立一个搜索引擎.
我知道通过使用Solr,我可以提高搜索的效率 - 让Nutch独自完成整个网络的爬行.
我也知道Hadoop用于通过形成集群和MapReduce来处理数PB的数据.

现在,我想知道的是
1)因为,我将只在一台机器上运行这些开源软件,也就是说,我的笔记本电脑在localhost上运行......在我的情况下,Hadoop如何形成集群是多么有益?如何在一台机器上形成集群?

2)在我的案例中,MapReduce的重要性是什么?

3)MAHOUT,CASSANDRA和HBASE如何影响我的发动机???

非常感谢这方面的任何帮助.如果我问一个菜鸟问题,请告诉我!
谢谢你
的问候

solr hadoop mapreduce nutch mahout

0
推荐指数
1
解决办法
1061
查看次数

无法启动 HBase start_hbase.sh:找不到命令

到目前为止,试图让 Nutch + Solr 工作是徒劳的。我很难理解如何使用nutchand来处理这件事solr。我遵循了我可以在互联网上找到的所有教程,其中大部分是针对旧版本的,但我仍然无法使它们中的任何一个工作。此时此刻,我正在遵循本指南

我已经将nutch 2.2.1sorl 4.3.1hbase 0.90.4 解压到我的 xampp 本地服务器上的目录(没有一个教程说我应该将它们解压到哪里,所以我假设在本地服务器上)。

Cygwin在 Windows 7 上使用。 JAVA_HOME 指向/cygdrive/c/PROGRA~1/java/jdk1.8.0_05

我卡在了Configure HBase一步。按照教程的指示,我的配置/hbase-0.90.4/conf/hbase-site.xml如下:

<property>
   <name>hbase.rootdir</name>
   <value>file:///C:/xampp/htdocs/trynutch/hbase</value>
</property>
<property>
   <name>hbase.zookeeper.property.dataDir</name>
   <value>C:/xampp/htdocs/trynutch/zookeeper</value>
</property>
Run Code Online (Sandbox Code Playgroud)

根据此后的教程,我应该能够运行以下命令:

$ ./trynutch/hbase/bin/start_hbase.sh
Run Code Online (Sandbox Code Playgroud)

当我在 cygwin 终端中运行它时,它给出了一个错误:

DM@comp ~
$ cd C:/xampp/htdocs/trynutch/hbase-0.90.4/bin

DM@comp /cygdrive/c/xampp/htdocs/trynutch/hbase-0.90.4/bin
$ start_hbase.sh
-bash: start_hbase.sh: command not found
Run Code Online (Sandbox Code Playgroud)

我很感激任何信息。

cygwin solr hbase nutch

0
推荐指数
1
解决办法
4225
查看次数

Nutch 1.13抓取脚本无法正常工作

我安装了Nutch 1.10,配置并使用爬网脚本但尝试升级到Nutch 1.13.我无法让Nutch抓取脚本与Nutch v1.13一起使用.

这通常适用于v1.10

bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/ urls/ searchcrawl/  2
Run Code Online (Sandbox Code Playgroud)

但是,当我尝试用它运行v1.13时,我得到了

Usage: crawl [-i|--index] [-D "key=value"] [-w|--wait] [-s <Seed Dir>] <Crawl Dir> <Num Rounds>
-i|--index  Indexes crawl results into a configured indexer
-D      A Java property to pass to Nutch calls
-w|--wait   NUMBER[SUFFIX] Time to wait before generating a new segment when no URLs
        are scheduled for fetching. Suffix can be: s for second,
        m for minute, h for hour and d for day. If no suffix is …
Run Code Online (Sandbox Code Playgroud)

web-crawler nutch

0
推荐指数
1
解决办法
379
查看次数