标签: nutch

我最近开始寻找apache nutch.我可以设置并能够使用nutch抓取我感兴趣的网页.我不太了解如何读取这些数据.我基本上想要将每个页面的数据与一些元数据(现在的一些随机数据)相关联,并将它们存储在本地,稍后将用于搜索(语义).我是否需要使用solr或lucene？我是所有这些的新手.据我所知,Nutch习惯于抓取网页.它是否可以执行一些其他功能,例如向已爬网数据添加元数据？

lucene solr semantic-web web-crawler nutch

CRS*_*CRS

lucky-day

5
推荐指数

1
解决办法

2337
查看次数

Nutch 2里面发生了什么？

我渴望知道(并且必须知道)关于nutch及其算法(因为它与我的项目有关),它用于获取,分类,...(通常是爬行).
我读过这篇文章,但有点难以理解.
是否有人能够以完整且易于理解的方式向我解释这一点？
提前致谢.

algorithm infrastructure analysis nutch

Sor*_*ush

lucky-day

5
推荐指数

1
解决办法

1278
查看次数

Nutch不会抓取表单中的所有链接

抓取我的网站时遇到问题...有一个带有两个下拉列表的表单....当我开始抓取时,抓取工具只从表单中获取部分链接....从第一个下拉列表中从第二个下拉列表中选择部分选项....我尝试在nutch-defaults.xml文件中更改一些配置,但一切都是相同的......

I change 
fetcher.threads.per.queue  1 - 10         
db.ignore.internal.links true - false  
db.ignore.external.links false - true  
http.content.limit    65536 - 65536000  
file.content.limit    65536 - 65536000  
db.update.max.inlinks  10.000 - 100.000

Run Code Online (Sandbox Code Playgroud)

有没有其他选择,可以帮助我抓取我的表格中的所有选项...... ?? 谢谢你的回答.

apache solr web-crawler nutch

Hay*_*yan

lucky-day

5
推荐指数

1
解决办法

1290
查看次数

创建一个Akka胖罐

我需要创建一个Nutch插件,使用Akka与一些外部应用程序通信.为了做到这一点,我需要将插件打包为胖罐 - 我正在使用sbt-assembly版本0.8.3.

当我尝试运行插件时,我得到了异常

com.typesafe.config.ConfigException$Missing: No configuration setting found for key 'akka'

Run Code Online (Sandbox Code Playgroud)

好像Akka无法找到reference.conf.这很奇怪,因为sbt-assembly 应该能够正确打包该文件,事实上我可以在创建的jar中看到它的内容.

我build.sbt看起来像这样:

import AssemblyKeys._

name := "my-project"

version := "0.1-SNAPSHOT"

scalaVersion := "2.10.0"

resolvers ++= Seq(
  "Central Repo" at "http://repo1.maven.org/maven2",
  "Typesafe Repository" at "http://repo.typesafe.com/typesafe/releases/",
  "Akka io" at "http://akka.io/repository"
)

libraryDependencies ++= Seq(
  ...,
  "com.typesafe.akka" %% "akka-actor" % "2.1.1",
  "com.typesafe.akka" %% "akka-remote" % "2.1.1"
)

seq(assemblySettings: _*)

mergeStrategy in assembly <<= (mergeStrategy in assembly) { (old) =>
  {
    case "plugin.xml" …

Run Code Online (Sandbox Code Playgroud)

scala nutch sbt akka sbt-assembly

And*_*rea

2013 11-12

5
推荐指数

1
解决办法

3906
查看次数

加载到solr时Nutch消息"没有IndexWriters激活"

我按照nutch教程运行了nutch crawler http://wiki.apache.org/nutch/NutchTutorial但是当我开始将它加载到solr时我收到了这条消息,即" 没有激活IndexWriters - 检查你的配置 "

bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -dir crawl/segments/
Indexer: starting at 2013-07-15 08:09:13
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
**No IndexWriters activated - check your configuration**

Indexer: finished at 2013-07-15 08:09:21, elapsed: 00:00:07

Run Code Online (Sandbox Code Playgroud)

solr nutch

Sub*_*pta

lucky-day

5
推荐指数

1
解决办法

5112
查看次数