我的任务是选择我们即将在即将开展的项目中使用的全文搜索引擎.基于我所读到的,我倾向于Solr,但我有点担心空间搜索.除了一些其他参数(关键字,类别等),我们希望能够指定位置和最大距离(例如,在距离亚利桑那州坦佩25英里的范围内).我们希望能够按距离对结果进行排序.
空间SOLR显然是相当新的,并不完全清楚它的成熟度.还有一些其他选项(手动计算然后反转距离,或solr-spatial-light.
我的问题基本上是:Spatial Solr(或solr-spatial-light)是否足够准备黄金时段来处理我上面描述的情况,或者我们最好不要使用Sphinx?
我也有兴趣听听实现其中任何一个的一般经验,特别是php.
我有一些不可能的要求:).
我有一个表,其中一个列被命名type.我想为该列中的每种类型选择3条记录.那可能吗?
另请注意,我正在使用MySQL和Sphinx.
更新:表结构
id title type
1 AAAA string1
2 CCCC string2
3 EEEE string2
4 DDDD string2
5 FFFF string2
6 BBBB string2
6 BBBB string2
Run Code Online (Sandbox Code Playgroud)
我希望MySQL返回的是(按标题排序的每种类型最多3条记录):
id title type
1 AAAA string1
6 BBBB string2
2 CCCC string2
4 DDDD string2
Run Code Online (Sandbox Code Playgroud) 我想知道Heroku是否支持Sphinx(以及它的宝石Thinking Sphinx)
似乎Sphinx正在逐字搜索文档.我不知道如何在文档中搜索确切的短语.我试过了SPH_MATCH_ALL,SPH_MATCH_PHRASE但所有人都是逐字搜索文件.我在我的PHP应用程序中使用它.
如何查询Sphinx以匹配精确的字符串?
这是我的代码:
$sphinx = new SphinxClient();
$mode = SPH_MATCH_PHRASE;
$sphinx->setServer('127.0.0.1', 9312);
$sphinx->setLimits(0,1);
$sphinx->setMaxQueryTime(5000);
$sphinx->setMatchMode($mode);
$sphinx->setFieldWeights(array('name' => 100));
$sphinx->setArrayResult(true);
$result = $sphinx->query('Lorem ipsum dolor sit amet, consectetur adipiscing elit.');
print_r($result);
Run Code Online (Sandbox Code Playgroud)
返回结果如下:
Array (
[error] =>
[warning] =>
[status] => 0
[fields] => Array (
[0] => name
[1] => company
[2] => image
[3] => price
)
[attrs] => Array ()
[total] => 0
[total_found] => 0
[time] => 0.000
[words] => Array (
[lorem] => …Run Code Online (Sandbox Code Playgroud) 我安装了Sphinx Search作为我的搜索引擎,我正在尝试为搜索添加一些额外的功能setFilter(),SetSelect()这应该允许我做WHERE/AND条款.但每当我尝试搜索时,它都不会返回结果而不是结果.
这是我的sphinx.conf:http://pastebin.com/M6Kd71u0
这是PHP代码:
require("sphinxapi.php");
$host = "localhost";
$port = 9312;
$index = "llgenre";
$select1 = "cartoon";
$label6 = "children";
$type = 4;
$limit = 20;
$ranker = SPH_RANK_PROXIMITY_BM25;
$mode = SPH_MATCH_ALL;
$sphinx = new SphinxClient();
$sphinx->setServer($host, $port);
$sphinx->setConnectTimeout(0);
$sphinx->setMatchMode($mode);
$sphinx->setRankingMode($ranker);
$sphinx->setSelect('*, select1="'.$select1.'" AND label6="'.$label6.'" AS mycond');
$sphinx->setFilter('mycond', array(1));
$res = $sphinx->query($type, $index);
die(var_dump($res));
Run Code Online (Sandbox Code Playgroud)
我如何才能通过搜索type = 4,过滤由select1与cartoon最后在label6用children?
我是初创公司的新手编码器,我正在网络主机的目录中实现文档搜索.
我正在比较Lucene/Solr,飞快移动,狮身人面像和Xapian.飞快移动本身就是蟒蛇.但我也想要你的意见.其中有哪些
我正在尝试创建一个Web界面来搜索大量的大型配置文件(大约60000个文件,每个文件的大小在20 KB到50 MB之间).这些文件也经常更新(约3次/天).
要求:
我所研究的内容:
<xml><line number="1">test</line>...</xml>.更新需要大约5分钟,这有点奏效,但我们仍然不满意.你会如何实现替代方案?
我想使用实时索引作为当前变化的即时可用增量,因此需要每晚擦除.有没有一种很好的方法可以从RT索引中删除所有文档?我想我可以从中选择所有内容并DELETE为每个找到的id 发出一个,但这似乎不是一个明智的方法.
我曾经使用该软件的第二个版本,没有任何问题.在我的上一次申请中,我决定使用最新的"思考 - 狮身人面像".我有一个奇怪的错误.
> NoMethodError in Adverts#index undefined method `next_result' for
> #<Mysql2::Client:0xac86a54>
Run Code Online (Sandbox Code Playgroud)
我的宝石文件
gem 'rails', '3.2.11'
gem 'pg', '0.14.0' # My database
# for sphinx
gem "mysql2", "~> 0.3.11"
gem "thinking-sphinx", "~> 3.0.0"
Run Code Online (Sandbox Code Playgroud)
索引:
ThinkingSphinx::Index.define :car, :with => :active_record do
has user_id, model_id, city_id, area_id, engine_id, mileage
end
Run Code Online (Sandbox Code Playgroud)
thinking_sphinx.yml
development:
port: 9312
test:
port: 9313
production:
port: 9312
Run Code Online (Sandbox Code Playgroud)
控制器:
class AdvertsController < ApplicationController
def index
@cars = Car.by_model_id(@model_id)
end
end
Run Code Online (Sandbox Code Playgroud)
模型:
class Car < ActiveRecord::Base
include ThinkingSphinx::Scopes
sphinx_scope(:by_model_id) { …Run Code Online (Sandbox Code Playgroud) 可以使用Sphinx在一个句子中搜索单词.例如,我们有下一个文字:
Васямолодец,съелогурец,т.к.проголодался.Такиедела.
如果我搜索
??????? SENTENCE ??????
Run Code Online (Sandbox Code Playgroud)
我找到了这个文字.如果我搜索
??????? SENTENCE ????????????
Run Code Online (Sandbox Code Playgroud)
我找不到这个文字,因为短语中的点?.?.被视为句末.
我怎么看,一组分隔符在Sphinx的源代码中是硬编码的.
我的问题是如何改善判刑的检测?更好的方法是使用Yandex的Tomita解析器或另一个nlp库,智能检测句子.