我正在使用nutch 1.3来抓取一个网站.我想获取一个已抓取的网址列表,以及来自网页的网址.
我获取使用readdb命令爬网的URL列表.
bin/nutch readdb crawl/crawldb -dump file
Run Code Online (Sandbox Code Playgroud)
有没有办法通过阅读crawldb或linkdb找出页面上的网址?
在org.apache.nutch.parse.html.HtmlParser
我看到的outlinks数组中,我想知道是否有一种从命令行访问它的快捷方法.
我最近开始研究nutch,我正在努力了解它是如何工作的.据我所知,Nutch基本上用于抓取网络,solr/Lucene用于索引和搜索.但是当我阅读关于nutch的文档时,它说nutch也做了反向索引.它是否在内部使用Lucene进行索引,还是有其他一些用于索引的库?如果它使用solr/lucene进行索引,那么为什么有必要用nutch配置solr,正如nutch教程所说的那样?
索引是否默认完成.我的意思是我运行此命令来开始爬行.索引正在这里发生吗?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud)
或者仅在这种情况下发生索引.(根据教程:如果您已经设置了Solr核心并希望为其编制索引,则需要将-solr参数添加到爬网命令中,例如)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud) 我想在Intellij IDEA 打开Nutch 2.1源文件(http://www.eu.apache.org/dist/nutch/2.1/).以下是如何在Eclipse中打开它的解释:http://wiki.apache.org/nutch/RunNutchInEclipse
但是我不熟悉Ant(我使用Maven),当我打开源文件时,Intellij不知道很多类.即:
org.apache.hadoop.mapreduce.JobContext
org.apache.gora.mapreduce.GoraMapper
Run Code Online (Sandbox Code Playgroud)
如何将它们添加到库中或我该怎么办?
我正在尝试按照本指南设置Apache Nutch来抓取URL .作为一个较老的指南(该指南适用于1.x,我使用的是2.3),我对结构做了必要的修改.但是,当我尝试运行爬网时,我收到此错误:
root@IndiStage:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2
No SOLRURL specified. Skipping indexing.
Injecting seed URLs
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
Error running:
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Failed with exit value 1.
root@IndiStage:~#
Run Code Online (Sandbox Code Playgroud)
作为Ubuntu(14.04)的新手,我发现很难管理目录结构和路径.
InjectorJob
在... /usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl
JAVA_HOME
被设置为 /usr/lib/jvm/java-7-openjdk-amd64
我们公司有数以千计的PDF文档.我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎?我们将提供一个基本的Java/JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接.
我是厚的还是没有办法通过编程方式通过一些Java代码调用Apache Nutch?关于如何执行此操作的文档(或指南或教程)在哪里?谷歌让我失望了.所以我实际上尝试了Bing.(是的,我知道,可悲.)想法?提前致谢.
(另外,如果Nutch是一个废话,那么任何其他用Java编写的爬行器在互联网规模上都可以用实际文档证明是可靠的吗?)
有没有人有幸为nutch编写自定义索引器以使用elasticsearch索引爬网结果?或者你知道任何已经存在的东西吗?
我正在用nutch和hadoop做一些测试,我需要大量的数据.我想从20GB开始,到100GB,500GB,最终达到1-2TB.
问题是我没有这么多数据,所以我正在考虑如何制作它.
数据本身可以是任何类型.一个想法是获取一组初始数据并复制它.但它不够好,因为需要彼此不同的文件(相同的文件被忽略).
另一个想法是编写一个程序,用于创建具有虚拟数据的文件.
还有其他想法吗?
我用Nutch 2.1抓取了一个URL,然后我想在更新后重新抓取页面.我怎样才能做到这一点?我如何知道页面已更新?
我在我的本地计算机上托管了一个站点,我正在尝试使用Nutch和Solr中的索引进行爬网(两者也在我的本地计算机上).我按照Nutch网站(http://wiki.apache.org/nutch/NutchTutorial)上的说明安装了Solr 4.6.1和Nutch 1.7 ,我在浏览器中运行Solr没有问题.
我正在运行以下命令:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 1 -topN 2
Run Code Online (Sandbox Code Playgroud)
爬网工作正常,但是当它尝试将数据放入Solr时,它会失败并显示以下输出:
Indexer: starting at 2014-02-06 16:29:28
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
SOLRIndexWriter
solr.server.url : URL of the SOLR instance (mandatory)
solr.commit.size : buffer size when sending to SOLR (default 1000)
solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
solr.auth : use authentication (default false)
solr.auth.username : use authentication (default false) …
Run Code Online (Sandbox Code Playgroud)