小编sun*_*eja的帖子

如何加快Nutch的爬行速度

我正在尝试开发一个应用程序,在其中我将为Nutch中的urls文件提供一组受限制的URL.我能够抓取这些网址,并通过从细分中读取数据来获取它们的内容.

我已经通过给出深度1来抓取,因为我不关心网页中的外链或链接.我只需要url文件中该网页的内容.

但执行此爬网需要时间.所以,建议我一种减少爬行时间和提高爬行速度的方法.我也不需要索引,因为我不关心搜索部分.

有没有人有关于如何加快爬行的建议?

web-crawler nutch

3
推荐指数
3
解决办法
5711
查看次数

我该如何测试Rails Enums?

假设我有一个名为CreditCard的模型.由于某些技术限制,最好将卡网络表示为枚举.我的代码看起来像这样:

class CreditCard < ActiveRecord::Base
   enum network: [:visa, :mastercard, :amex]
end
Run Code Online (Sandbox Code Playgroud)

使用枚举时应该测试什么?

testing enums ruby-on-rails ruby-on-rails-4 rails-activerecord

3
推荐指数
1
解决办法
2643
查看次数

评估Ruby while循环底部的退出条件

我有一个关于Ruby循环的基本问题.

写入的程序返回第i个素数+1(即示例应返回17).我知道我可以简单地返回cand-1,但我想知道检查在while循环底部是否找到答案的"Ruby方式"是什么,只有在没有的情况下才增加.

def ith_prime(i)
  pI = 0 # primes index
  divs = []
  cand = 2

  until pI == i do 
    if divs.find { |div| cand%div == 0 } == nil
        divs << cand
        pI += 1
    end
    cand += 1
  end
  cand
end

puts ith_prime(7)
> 18
Run Code Online (Sandbox Code Playgroud)

ruby

1
推荐指数
1
解决办法
733
查看次数

Jekyll HTML页面不呈现液体

我目前正在使用jekyll构建一个静态站点,看起来HTML文件没有解析流量.

我当前的目录结构如下

_layouts
  page.html
index.html
Run Code Online (Sandbox Code Playgroud)

index.html的:

---
layout: page
title: home
---

{{ foo }}
Run Code Online (Sandbox Code Playgroud)

当我访问时http://host/index.html,布局按预期应用,但页面不评估{{ foo }},而是打印字符串{{ foo }}.

ruby liquid jekyll

1
推荐指数
1
解决办法
1002
查看次数