我想在我的 Windows 7 x64 上运行 Nutch。我有来自apache.spinellicreations.com/nutch/ 的Nutch 版本 1.5.1 和 2 。
我使用了wiki.apache.org/nutch/NutchTutorial 上的教程。但是我在第二步搞砸了,我无法验证安装。其他步骤很难理解...
安装和使用nutch的步骤是什么?
我已经在Ubuntu 16.04上启动并运行了ElasticSearch 5.3.2,并希望使用Nutch来爬网网站。我已经编译了Nutch 2.3.1,并成功地抓取了它,但是当我将其索引到Elastic中时,会出现错误。
命令:
bin / nutch索引-all
输出:
在/var/logs/elasticsearch/elasticsearch.log文件中,我收到以下消息:
有谁知道此错误的含义以及如何解决此问题?谢谢
当我来到nutch的下面的src时HttpBase.java
,我不知道符号是什么,"#"在作者的描述中是什么意思:
// get # of threads already accessing this addr
Integer counter = (Integer)THREADS_PER_HOST_COUNT.get(host);
Run Code Online (Sandbox Code Playgroud) PS:如果我在任何方面都错了,请纠正我
我正在用Nutch和Solr建立一个搜索引擎.
我知道通过使用Solr,我可以提高搜索的效率 - 让Nutch独自完成整个网络的爬行.
我也知道Hadoop用于通过形成集群和MapReduce来处理数PB的数据.
现在,我想知道的是
1)因为,我将只在一台机器上运行这些开源软件,也就是说,我的笔记本电脑在localhost上运行......在我的情况下,Hadoop如何形成集群是多么有益?如何在一台机器上形成集群?
2)在我的案例中,MapReduce的重要性是什么?
3)MAHOUT,CASSANDRA和HBASE如何影响我的发动机???
非常感谢这方面的任何帮助.如果我问一个菜鸟问题,请告诉我!
谢谢你
的问候
到目前为止,试图让 Nutch + Solr 工作是徒劳的。我很难理解如何使用nutch
and来处理这件事solr
。我遵循了我可以在互联网上找到的所有教程,其中大部分是针对旧版本的,但我仍然无法使它们中的任何一个工作。此时此刻,我正在遵循本指南
我已经将nutch 2.2.1、sorl 4.3.1、hbase 0.90.4 解压到我的 xampp 本地服务器上的目录(没有一个教程说我应该将它们解压到哪里,所以我假设在本地服务器上)。
我Cygwin
在 Windows 7 上使用。 JAVA_HOME 指向/cygdrive/c/PROGRA~1/java/jdk1.8.0_05
我卡在了Configure HBase
一步。按照教程的指示,我的配置/hbase-0.90.4/conf/hbase-site.xml
如下:
<property>
<name>hbase.rootdir</name>
<value>file:///C:/xampp/htdocs/trynutch/hbase</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>C:/xampp/htdocs/trynutch/zookeeper</value>
</property>
Run Code Online (Sandbox Code Playgroud)
根据此后的教程,我应该能够运行以下命令:
$ ./trynutch/hbase/bin/start_hbase.sh
Run Code Online (Sandbox Code Playgroud)
当我在 cygwin 终端中运行它时,它给出了一个错误:
DM@comp ~
$ cd C:/xampp/htdocs/trynutch/hbase-0.90.4/bin
DM@comp /cygdrive/c/xampp/htdocs/trynutch/hbase-0.90.4/bin
$ start_hbase.sh
-bash: start_hbase.sh: command not found
Run Code Online (Sandbox Code Playgroud)
我很感激任何信息。
我安装了Nutch 1.10,配置并使用爬网脚本但尝试升级到Nutch 1.13.我无法让Nutch抓取脚本与Nutch v1.13一起使用.
这通常适用于v1.10
bin/crawl -i -D elastic.server.url=http://localhost:9300/search-index/ urls/ searchcrawl/ 2
Run Code Online (Sandbox Code Playgroud)
但是,当我尝试用它运行v1.13时,我得到了
Usage: crawl [-i|--index] [-D "key=value"] [-w|--wait] [-s <Seed Dir>] <Crawl Dir> <Num Rounds>
-i|--index Indexes crawl results into a configured indexer
-D A Java property to pass to Nutch calls
-w|--wait NUMBER[SUFFIX] Time to wait before generating a new segment when no URLs
are scheduled for fetching. Suffix can be: s for second,
m for minute, h for hour and d for day. If no suffix is …
Run Code Online (Sandbox Code Playgroud)