小编Avi*_*ash的帖子

Scrapy - 如何识别已经刮过的网址

我每天都使用scrapy来抓取新闻网站.我如何限制scrapy刮掉已经删除的URL.还有任何明确的文档或示例SgmlLinkExtractor.

python web-crawler scrapy

14
推荐指数
2
解决办法
8361
查看次数

如何在redis哈希中获取值的计数?

我有一个redis哈希例如

key field value

1000 state "ca" 
1000 zip "95054"
2000 state "ca" 
2000 zip "95050"
3000 state "ny" 
3000 zip "12345"
Run Code Online (Sandbox Code Playgroud)

我怎样才能回答有多少州是"CA"的问题.我需要为一个字段计算值.可能吗 ?帮助将不胜感激.

-Avi

redis

6
推荐指数
1
解决办法
9205
查看次数

建议在索引中跨多个类型完成

是否可以对类型进行建议完成?我能够在索引上做到这一点.

POST /data/_suggest
{
  "data" : {
    "text" : "tr",
    "completion" : {
      "field" : "sattributes",
      "size":50
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

当我做一个类型:

POST /data/suggestion/_suggest
{
  "data" : {
    "text" : "tr",
    "completion" : {
      "field" : "sattributes",
      "size":50
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

suggestion 是类型.

我没有得到任何结果.我需要对两种不同类型的文章和书籍做一些建议.我是否需要创建单独的索引才能使它们起作用,或者在弹性搜索中是否有办法实现此目的?如果我必须搜索我的索引data是有方法获得50个类型的article结果和50个类型的结果book.

任何帮助都非常感谢.

elasticsearch

5
推荐指数
1
解决办法
1904
查看次数

Elasticsearch从日期字段按年过滤

我有yyyy-MM-dd格式的日期字段的文档.有没有办法只根据字段的年份部分进行过滤.

例:

{'name': 'a', 'born': '1984-11-22'},
{'name': 'b', 'born': '1984-12-12'},
{'name': 'c', 'born': '1985-10-22'},
Run Code Online (Sandbox Code Playgroud)

我想做一个术语/范围过滤器来查找1984年出生的人.任何帮助都非常感谢.

elasticsearch

3
推荐指数
2
解决办法
4304
查看次数

mongodb mapreduce中的条件

我如何在mongos group功能中指定mongos mapreduce中的条件.

我的数据就像

{lid:1000, age:23}, {lid:3000, age:23}, {lid:1000, age:24}. 
Run Code Online (Sandbox Code Playgroud)

我想只发出值为1000的盖子emit(this.lid, this.age).但这会发出所有价值.我想在这里有一个条件.地图中是否有任何减少方法?我试图在reduce函数中使用if条件进行过滤,但它不起作用

mongodb pymongo

1
推荐指数
1
解决办法
2320
查看次数

标签 统计

elasticsearch ×2

mongodb ×1

pymongo ×1

python ×1

redis ×1

scrapy ×1

web-crawler ×1