小编Pau*_*lin的帖子

为什么Nutch似乎不知道"Last-Modified"？

我使用60000的db.fetch.interval.default设置Nutch,这样我每天都可以爬行.如果我不这样做,那么当我第二天爬行时,它甚至都不会看我的网站.但是当我第二天抓取时,昨天获取的每个页面都会获得一个200响应代码,表明它没有在"If-Modified-Since"中使用前一天的日期.它不应该跳过提取未更改的页面吗？有没有办法让它做到这一点？我注意到Fetcher.java中有一个ProtocolStatus.NOT_MODIFIED,所以我认为它应该可以做到这一点,不应该吗？

顺便说一句,这是从当前主干的conf/nutch-default.xml剪切和粘贴的:

<!-- web db properties -->

<property>
  <name>db.default.fetch.interval</name>
  <value>30</value>
  <description>(DEPRECATED) The default number of days between re-fetches of a page.
  </description>
</property>

<property>
  <name>db.fetch.interval.default</name>
  <value>2592000</value>
  <description>The default number of seconds between re-fetches of a page (30 days).
  </description>
</property>

Run Code Online (Sandbox Code Playgroud)

web-crawler nutch

Pau*_*lin

2009 08-11

2
推荐指数

1
解决办法

1425
查看次数

为什么我的`my`变量不能在子内部访问？

我正在写一个Mason 1.x组件页面,它的表现并不像我期待的那样.perlsub手册页指示my变量应该在a中可访问sub.但是以下代码:

my @myOrderBy = @orderBy;
sub sortAll
{
  my $ret = 0;
  foreach my $sortStr (@myOrderBy)
  {
  }
}

Run Code Online (Sandbox Code Playgroud)

给我错误:

编译/opt/rt4/local/plugins/RTx-Foo/html/cf/helpers/ticketQuery.ajx时出错:/ opt/rt4/local/plugins/RTx-Foo/html中没有变量"@myOrderBy" /cf/helpers/ticketQuery.ajx第206行.

(第206行是该foreach行)

相同的代码在非Mason上下文中正常工作.

perl scope mason

Pau*_*lin

2012 12-30

2
推荐指数

1
解决办法

542
查看次数

找出哪个类具有给定的serialVersionUID

当我得到一个java.io.InvalidClassException时,它给了我想要的serialVersionUID,以及它得到的serialVersionUID.有没有一种简单的方法可以使用错误的serialVersionUID来判断我的几十个罐子中的哪一个？

更新:我应该提到我们的目的是同时更新所有内容,但我正在尝试在构建和部署过程中调试问题.

java rmi serialversionuid

Pau*_*lin

2009 09-15

1
推荐指数

1
解决办法

3120
查看次数

如何更改计时器格式

我创建了计时器.如何将计时器格式更改为秒,以便它不会是长号？谢谢

private long startTime  = System.currentTimeMillis();
Timer timer  = new Timer(1000, this);
timer.start();

timer.stop();
long endTime    = System.currentTimeMillis();
long timeInMilliseconds = (endTime - startTime);

Run Code Online (Sandbox Code Playgroud)

java format timer

Jes*_*ssy

2009 03-23

1
推荐指数

1
解决办法

391
查看次数

为什么我的log4j.properties文件没有被使用？

我在当前目录中有一个log4j.properties文件,它指定了一些要在DEBUG级别记录的东西,以及其他所有东西作为INFO:

log4j.rootLogger=WARN, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=[%5p] %d{mm:ss} (%F:%M:%L)%n%m%n%n

log4j.logger.com.xcski=DEBUG
log4j.logger.org.apache.nutch.protocol.http=DEBUG
log4j.logger.org.apache.nutch.fetcher.Fetcher=DEBUG

Run Code Online (Sandbox Code Playgroud)

我从ant运行项目:

<target name="crawl" depends="compile">
  <java classname="com.xcski.nutch.crawler.Crawler"
        maxmemory="1000m" fork="true">
      <classpath refid="run.classpath"/>
  </java>
</target>

Run Code Online (Sandbox Code Playgroud)

但由于某种原因,我得到的唯一输出来自LOG.info(),而不是LOG.debug.我确定这是微不足道的,但我现在已经在墙上撞了一个小时了,我想我会尝试一下.

ant log4j

Pau*_*lin

lucky-day

1
推荐指数

1
解决办法

2065
查看次数

gchart可以安全使用吗？

gchart的主页是谷歌Web工具包(GWT)的客户端图表插件,它对该项目唯一的维护者如何认为他的谷歌帐户遭到黑客攻击有着长期的意见,因此他将"拒绝/放弃我的自己的项目和谷歌帐户".这是否意味着该项目是一个孤儿？有人接管了吗？

将项目基于其他人的代码总是存在风险,因为他们可能会在项目的生命周期内停止支持或放弃它,但在我看来,随着Java和GWT的快速发展,在新项目中使用gchart可能是一个很大的错误.我对吗？

gwt charts gchart

Pau*_*lin

lucky-day

1
推荐指数

1
解决办法

757
查看次数

高级/非常见的高效排序算法

我知道有一些像:

还有一些不切实际的:

BOGO排序
RandomSort

上面的一些使用比较而其他人没有.

您知道存在哪些其他有效算法或技术来排序数字吗？你可以建议我即使它不适用于现实生活中,或者它是不切实际但它必须是有效的,但如果它是一个计算解决方案会更好.

sorting algorithm complexity-theory

Enr*_*que

2009 12-13

1
推荐指数

1
解决办法

3997
查看次数

XSL中的列表的递归列表

我有一个递归节点,我正在尝试为jquery-checktree设置.节点看起来像

foo/bar/ID
       /NAME
       /CHECKED
       bar/ID
          /NAME
          /CHECKED
   /bar/ID
       /NAME
   /bar/ID
       /NAME
       /bar/ID
           /NAME
           /CHECKED
           /bar/ID
               /NAME
               /CHECKED

Run Code Online (Sandbox Code Playgroud)

任何栏可能会或可能不会在其下方有一个或多个栏节点,但任何栏都有ID和NAME,并且可能有CHECKED.

我想把它变成

<ul>
  <li><input type="checkbox" name="..." value="..." checked="checked"></input>
      <label for="...">...</label>
      <ul>
        <li><input type="checkbox" name="..." value="..." checked="checked"></input>
          <label for="...">...</label>
        </li>
      </ul>
  <li>....</li>
</ul>

Run Code Online (Sandbox Code Playgroud)

我可以通过以下方式获得第一级:

    <ul class="tree">
    <xsl:for-each select="/foo/bar/">
        <li><input type="checkbox" name="{ID}" value="{ID}">
            <xsl:if test="CHECKED = 'Y'"><xsl:attribute name="checked">checked</xsl:attribute></xsl:if>
            </input><label for="{ID}"><xsl:value-of select="NAME"/></label>
        </li>
    </xsl:for-each>
    </ul>

Run Code Online (Sandbox Code Playgroud)

但是我不知道如何递归到"栏"内的嵌入式"栏",可能会有很多层次.

xslt recursion

Pau*_*lin

lucky-day

1
推荐指数

1
解决办法

2021
查看次数

在Perl中,如何解析一个太大而无法容纳在可用内存中的XML文件？

我有一个非常大的XML文件(如果你关心,它是来自EAD的AIXM文件,但这并不重要).为了弄清楚它是如何使用的,我想编写一个简单的脚本,遍历每个节点,记录下面发生的子节点和多少次,这样我就可以看到哪些节点包含哪些节点<AptUid>以及大多数<Rdn>节点是否有<GeoLat>节点不是,那种事.

我试图使用XML :: Simple将整个东西加载到hashref中,但它太大而无法放入内存中.是否有XML解析器允许我一次只查看一个文件？

xml perl

Pau*_*lin

2010 07-09

1
推荐指数

1
解决办法

553
查看次数

句子索引

我有几万个简短的文档,每个文档由10到20个英文句子组成(以及一些其他非句子的东西,比如HTML格式或其他"垃圾").这些文件从其他较长的文件中删除 - 换句话说,较短的文件"A1"可能是原始文件"A"的第10至20句,另一个较短的文件"A2"可能是同一文件原件的第11至25句"A",以及一些原始源文档可能是其他原始源文档的摘要或副本,因此原始源文档"B"也可能包含原始源文档"A"的句子10到20,但不一定在同一地点.并且同一组句子可能已经从"B"提取到另一个短文档"B3"中.

对于每个句子,或者至少每个句子超过一定长度(比如说> 3个字长),我想制作一个句子出现的每个短文档的列表.我想扫描现有的较短文档和生成该索引,并在我将更长的原始源文档分解为更短的文档时更新该索引.

我在想我需要的是一些代码来为一个句子制作一个有效的哈希码,这个句子很可能为两个不同的句子产生相同的哈希码.Java String.hashCode()中使用的哈希算法是一个不错的选择吗？MD5或其他加密哈希看起来似乎太昂贵,并且为此目的而过度杀伤.

algorithm indexing hash

Pau*_*lin

lucky-day

1
推荐指数

1
解决办法

146
查看次数

以下代码在CSS中做了什么？

我对CSS一无所知,但我想弄清楚这种语法的含义:

body {
    margin: 0;
    font-family: "Trebuchet MS", Helvetica;
    background: #FFFFFF;
    color: #FE6600;
    overflow-x: hidden;
    position: absolute;
    margin: 0;
    padding: 0;
    left: 0;
    top: 45px;
    width: 100%;
    min-height: 372px;
}

body > *:not(.toolbar) {
    /*display: block;*/
    position: absolute;
    margin: 0;
    padding: 0;
    left: 0;
    top: 45px;
    width: 100%;
    min-height: 372px;
}

Run Code Online (Sandbox Code Playgroud)

html css

Dan*_*nig

2009 01-16

0
推荐指数

1
解决办法

686
查看次数

SQL语法!空指针异常!

我在MySQL中有一个名为"clienttable"的表,它有11列,第9列是"yahooId",第11列是"password".我有两个例外:1:行的SQL语法rst = stmt.executeQuery("SELECT yahooId AND password FROM clienttable");和2:NullPoniterException for线while (rst.next())请帮帮我,谢谢.这也是我在我的数据库类中编写的:

    public static boolean Test(String userName, String password) {
    boolean bool = false;
    Statement stmt = null;
    try {
        stmt = conn.createStatement();
    } catch (SQLException ex) {
        Logger.getLogger(Manager.class.getName()).log(Level.SEVERE, null, ex);
    }
    ResultSet rst = null;
    try {
        rst = stmt.executeQuery("SELECT yahooId AND password FROM clienttable");
    } catch (SQLException ex) {
        Logger.getLogger(Manager.class.getName()).log(Level.SEVERE, null, ex);
    }
    try {
        while (rst.next()) {
            if (rst.getString(9).equals(userName) && rst.getString(11).equals(password)) {
                bool = true; …

Run Code Online (Sandbox Code Playgroud)

java

Joh*_*nna

2010 01-11

0
推荐指数

1
解决办法

1433
查看次数