小编Avi*_*hai的帖子

使用Node.js实时抓取网页

使用Node.js刮取网站内容有什么好处.我想构建非常非常快的东西,可以执行kayak.com风格的搜索,其中一个查询被分派到几个不同的站点,结果被删除,并在它们可用时返回给客户端.

我们假设这个脚本应该只提供JSON格式的结果,我们可以直接在浏览器或其他Web应用程序中处理它们.

一些起点:

使用node.js和jquery来抓取网站

有人有什么想法吗?

javascript jquery screen-scraping node.js web-scraping

65
推荐指数
2
解决办法
4万
查看次数

ActiveRecord find_each结合限制和顺序

我正在尝试使用ActiveRecord的find_each方法运行大约50,000条记录的查询,但它似乎忽略了我的其他参数,如下所示:

Thing.active.order("created_at DESC").limit(50000).find_each {|t| puts t.id }
Run Code Online (Sandbox Code Playgroud)

而不是停留在50,000我喜欢和排序created_at,这是在整个数据集上执行的结果查询:

Thing Load (198.8ms)  SELECT "things".* FROM "things" WHERE "things"."active" = 't' AND ("things"."id" > 373343) ORDER BY "things"."id" ASC LIMIT 1000
Run Code Online (Sandbox Code Playgroud)

有没有办法获得类似的行为,find_each但总的最大限制和尊重我的排序标准?

sql activerecord ruby-on-rails

64
推荐指数
4
解决办法
3万
查看次数

使用PostgreSQL创建一个数据透视表

假设我在Postgres中有一个表listings,看起来像这样:

id    neighborhood    bedrooms    price
1     downtown        0           256888
2     downtown        1           334000
3     riverview       1           505000
etc.
Run Code Online (Sandbox Code Playgroud)

如何编写交叉表查询,将每间卧室的平均价格显示为列和邻域作为行?

查询的输出应该类似于这样(数字组成,列是卧室):

            0       1       2       3
riverton    250000  300000  350000  -
downtown    189000  325000  -       450000
Run Code Online (Sandbox Code Playgroud)

sql database postgresql crosstab aggregate-functions

16
推荐指数
3
解决办法
6万
查看次数

WooCommerce Retina图像支持 - 不包含在srcset中

我最近安装了WP Retina 2x,它@2x在我的服务器上生成图像.但是,使用PictureFill或WP Responsive方法时,srcset不包含任何@2x图像或2x声明:

视网膜@ 2x图像不包含在srcset中

我还要提一下,我的媒体使用S3 Offload Lite插件存储在S3上.当生成的Amazon S3图像上传到S3时,即使使用专业版的"Over HTTP Check"功能,视网膜插件也无法检测到它们.

有谁知道为什么,或如何解决它?

php wordpress plugins amazon-s3 woocommerce

13
推荐指数
1
解决办法
502
查看次数

ElasticSearch对整个字段进行聚合

如何编写一个考虑整个字段值而不是单个标记的ElasticSearch术语聚合查询?比如,我想通过城市名聚集,但下面的回报new,york,sanfrancisco作为单独的水桶,不new yorksan francisco的水桶预期.

curl -XPOST "http://localhost:9200/cities/_search" -d'
{
   "size": 0, 
   "aggs" : {
     "cities" : {
         "terms" : { 
            "field" : "city",
            "min_doc_count": 10
         }
     }
   }
}'
Run Code Online (Sandbox Code Playgroud)

ruby statistics elasticsearch

12
推荐指数
2
解决办法
5199
查看次数

Ruby替代Scrapy?

什么是一些基于Ruby的工具可以帮助我实现类似于Scrapy为python做的事情? http://doc.scrapy.org/intro/overview.html

ruby python screen-scraping scrapy

11
推荐指数
1
解决办法
7689
查看次数

使用PostGIS和Rails查找边界框内的所有项目

我有一个Rails模型,它使用PostGIS POINT类型来存储位置的坐标.如何查询边界框中包含的所有位置?边界框来自谷歌地图,如下所示:

/locations?within=40.766159%2C-73.989786%2C40.772781%2C-73.979905&per_page=500

然后在我的模型中我有一个范围来处理这个,但无法弄清楚如何正确的查询:

scope :within, ->(box_string) {
    sw = box_string.split(",")[0..1].reverse.map {|c| c.to_f}
    ne = box_string.split(",")[2..3].reverse.map {|c| c.to_f}
    box = "BOX3D(#{sw[0]} #{sw[1]}, #{ne[0]} #{ne[1]})"
    where( ***WHAT DO I DO HERE?*** )
  }
Run Code Online (Sandbox Code Playgroud)

gis postgresql postgis ruby-on-rails

7
推荐指数
1
解决办法
1925
查看次数

如何配置ElasticSearch在崩溃后重新启动

使用apt-getElasticSearh 的软件包,如何配置服务在Ubuntu崩溃后自动重启?

linux ubuntu service init elasticsearch

7
推荐指数
2
解决办法
2444
查看次数

长期运行的Sidekiq工作一直在濒临死亡

我正在使用sidekiq gem来处理Rails中的后台作业.出于某种原因,这项工作在一段时间后就会挂起 - 这个过程要么变得反应迟钝,要么出现top但没有多少,或者神秘地消失,没有错误(没有报告给airbrake.io).

有没有人有这方面的经验?

ruby-on-rails background-process resque sidekiq

6
推荐指数
1
解决办法
2597
查看次数

在Rails中的一个ActiveRecord事务中更新多个记录

如何使用Rails中的事务块一次更新/保存模型的多个实例?

我想更新数百条记录的值; 每条记录的值都不同.这不是一个属性的批量更新情况.Model.update_all(attr:value)在这里不合适.

MyModel.transaction do
    things_to_update.each do |thing|
        thing.score = rand(100) + rand(100)
        thing.save
    end
end
Run Code Online (Sandbox Code Playgroud)

save似乎发布它自己的事务,而不是将更新批处理到周围的事务中.我希望所有更新都进入一次重大交易.

我怎么能做到这一点?

ruby postgresql activerecord transactions ruby-on-rails

6
推荐指数
1
解决办法
3289
查看次数