标签: nutch

速度最好的网络图形爬虫?

在过去的一个月里,我一直在使用Scrapy进行我已经开始的网络爬行项目.

此项目涉及在主页中可以访问的单个域名中提取所有网页的完整文档内容.使用Scrapy写这个很容易,但它运行得太慢了.在2-3天内,我只能下载100,000页.

我已经意识到我最初认为Scrapy不适合这种类型的爬行的想法是揭示自己.

我开始把注意力集中在Nutch和Methabot上,希望能有更好的表现.我在爬网期间需要存储的唯一数据是网页的完整内容,最好是页面上的所有链接(但即使这样也可以在后处理中完成).

我正在寻找一种快速并且使用许多并行请求的爬虫.

web-crawler nutch scrapy

5
推荐指数
1
解决办法
2522
查看次数

哪个开源爬虫最好?

我正在比较这四个Nutch/Heritrix/OpenPipeLine/Apache Tika哪个最好?每个的优点和缺点是什么?我想有一些可扩展的爬虫,可以抓取一个网站列表,并可以根据需要进行修改.

web-crawler nutch

5
推荐指数
1
解决办法
2957
查看次数

Nutch:数据读取和添加元数据

我最近开始寻找apache nutch.我可以设置并能够使用nutch抓取我感兴趣的网页.我不太了解如何读取这些数据.我基本上想要将每个页面的数据与一些元数据(现在的一些随机数据)相关联,并将它们存储在本地,稍后将用于搜索(语义).我是否需要使用solr或lucene?我是所有这些的新手.据我所知,Nutch习惯于抓取网页.它是否可以执行一些其他功能,例如向已爬网数据添加元数据?

lucene solr semantic-web web-crawler nutch

5
推荐指数
1
解决办法
2337
查看次数

Nutch 2里面发生了什么?

我渴望知道(并且必须知道)关于nutch及其算法(因为它与我的项目有关),它用于获取,分类,...(通常是爬行).
我读过这篇文章,但有点难以理解.
是否有人能够以完整且易于理解的方式向我解释这一点?
提前致谢.

algorithm infrastructure analysis nutch

5
推荐指数
1
解决办法
1278
查看次数

Nutch不会抓取表单中的所有链接

抓取我的网站时遇到问题...有一个带有两个下拉列表的表单....当我开始抓取时,抓取工具只从表单中获取部分链接....从第一个下拉列表中从第二个下拉列表中选择部分选项....我尝试在nutch-defaults.xml文件中更改一些配置,但一切都是相同的......

I change 
fetcher.threads.per.queue  1 - 10         
db.ignore.internal.links true - false  
db.ignore.external.links false - true  
http.content.limit    65536 - 65536000  
file.content.limit    65536 - 65536000  
db.update.max.inlinks  10.000 - 100.000
Run Code Online (Sandbox Code Playgroud)

有没有其他选择,可以帮助我抓取我的表格中的所有选项...... ?? 谢谢你的回答.

apache solr web-crawler nutch

5
推荐指数
1
解决办法
1290
查看次数

创建一个Akka胖罐

我需要创建一个Nutch插件,使用Akka与一些外部应用程序通信.为了做到这一点,我需要将插件打包为胖罐 - 我正在使用sbt-assembly版本0.8.3.

当我尝试运行插件时,我得到了异常

com.typesafe.config.ConfigException$Missing: No configuration setting found for key 'akka'
Run Code Online (Sandbox Code Playgroud)

好像Akka无法找到reference.conf.这很奇怪,因为sbt-assembly 应该能够正确打包该文件,事实上我可以在创建的jar中看到它的内容.

build.sbt看起来像这样:

import AssemblyKeys._

name := "my-project"

version := "0.1-SNAPSHOT"

scalaVersion := "2.10.0"

resolvers ++= Seq(
  "Central Repo" at "http://repo1.maven.org/maven2",
  "Typesafe Repository" at "http://repo.typesafe.com/typesafe/releases/",
  "Akka io" at "http://akka.io/repository"
)

libraryDependencies ++= Seq(
  ...,
  "com.typesafe.akka" %% "akka-actor" % "2.1.1",
  "com.typesafe.akka" %% "akka-remote" % "2.1.1"
)

seq(assemblySettings: _*)

mergeStrategy in assembly <<= (mergeStrategy in assembly) { (old) =>
  {
    case "plugin.xml" …
Run Code Online (Sandbox Code Playgroud)

scala nutch sbt akka sbt-assembly

5
推荐指数
1
解决办法
3906
查看次数

加载到solr时Nutch消息"没有IndexWriters激活"

我按照nutch教程运行了nutch crawler http://wiki.apache.org/nutch/NutchTutorial但是当我开始将它加载到solr时我收到了这条消息,即" 没有激活IndexWriters - 检查你的配置 "

bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -dir crawl/segments/
Indexer: starting at 2013-07-15 08:09:13
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
**No IndexWriters activated - check your configuration**

Indexer: finished at 2013-07-15 08:09:21, elapsed: 00:00:07
Run Code Online (Sandbox Code Playgroud)

solr nutch

5
推荐指数
1
解决办法
5112
查看次数

Nutch + Solr仅限顶级页面

我一直在尝试使用Nutch在我的urls文件中抓取域的第一页,然后使用Solr使搜索到的爬网数据中的关键字可搜索.到目前为止,我还没有能够以这种方式工作,除非这两个页面链接在一起.

我意识到这可能是没有传入链接的页面的问题,因此PageRank算法丢弃页面内容.我尝试调整参数,以便不在图表中的网址的默认分数更高,但我仍然得到相同的结果.

是否有人知道可以在没有传入链接的页面上构建索引?

谢谢!

java solr hadoop nutch

5
推荐指数
1
解决办法
255
查看次数

Apache Nutch步骤说明

我关注了以下文章:https : //wiki.apache.org/nutch/NutchTutorial并设置apache nutch + solr。但我想澄清一下我是否正确理解了螺帽步骤的工作。

1)。注入:在这一部分中,apache从给定的seed.txt中读取url列表,将url与regex-urlfiler regex进行比较,并使用支持的url更新crawldb。

2)。生成:bin / nutch生成crawl / crawldb爬网/段Nutch从crawldb中获取URL,并创建准备被提取的URL提取列表。它需要输入-topN和timegap等,然后使用段下的当前时间创建目录。

我相信,在前两个步骤中,没有与互联网进行交互。一切都在本地发生。

问:提取列表保存在哪里?

3)。抓取:bin / nutch抓取抓取/段/

获取运行fetchList并从给定的URL获取内容(和URL),并将其保存在某处。

问:获取是否读取URL的整个给定页面(文本+其他URL)?问:Nutch将获取的数据保存在哪里?

4)。解析:bin / nutch解析抓取/分段/

它解析条目。

问:这里的解析是什么意思?问:在哪里可以找到此步骤的结果?

5)。bin / nutch updateb爬网/ crawldb爬网/段/

完成此操作后,Nutch用获取的结果更新数据库。

问:是否仅使用已解析的数据或其他内容更新crawldb?

请清除我的怀疑。

apache nutch

5
推荐指数
1
解决办法
1422
查看次数

建议使用Django构建搜索引擎

我是网络爬行新手.我将构建一个搜索引擎,爬虫可以保存Rapidshare链接,包括Rapidshare链接找到的URL ...

换句话说,我打算建立一个类似的网站 filestube.com

经过一番搜索,我发现Scrapy适用于Django.我试图找到与Django的nutch集成,但一无所获

我希望你能给我建议建立这种网站...特别是爬虫

django search-engine nutch scrapy

4
推荐指数
1
解决办法
2590
查看次数