如何找到相似的结果并按相似性排序?

Rob*_*cks 67 mysql sql sorting string similarity

如何查询按相似性排序的记录?

例如.搜索"股票溢出"将返回

  1. 堆栈溢出
  2. SharePoint溢出
  3. 数学溢出
  4. 政治溢出
  5. VFX溢出

例如.搜索"LO"将返回:

  1. 巴勃罗毕加索
  2. 米开朗基罗
  3. 杰克逊pollock

我需要帮助的是:

  1. 使用搜索引擎索引和搜索MySQL表,以获得更好的结果

    • 使用Sphinx搜索引擎,使用PHP

    • 使用带有PHP 的Lucene引擎

  2. 使用全文索引,查找类似/包含的字符串


什么不好用

  • Levenshtein距离非常不稳定.(UDF,查询)
    搜索"狗"给了我:
    1. 沼泽
    2. 回声
  • LIKE 返回更好的结果,但对于长查询不返回任何内容,尽管存在类似的字符串
    1. dogid
    2. dogaral
    3. 教条

Yan*_*hon 83

我发现当你在另一个完整的字符串中搜索完整的字符串时,Levenshtein距离可能很好,但是当你在字符串中查找关键字时,这种方法不会(有时)返回想要的结果.此外,SOUNDEX功能不适用于英语以外的语言,因此它非常有限.你可以逃避LIKE,但它确实适用于基本搜索.您可能希望查看其他搜索方法以了解您想要实现的目标.例如:

您可以使用Lucene作为项目的搜索基础.它在大多数主流编程语言中实现,并且速度快且功能多样.这种方法可能是最好的,因为它不仅搜索子字符串,还搜索字母转置,前缀和后缀(全部组合).但是,您需要保留一个单独的索引(使用CRON可以在一段时间内从独立脚本更新它).

或者,如果您需要MySQL解决方案,则全文功能非常好,并且肯定比存储过程更快.如果您的表不是MyISAM,您可以创建一个临时表,然后执行全文搜索:

CREATE TABLE IF NOT EXISTS `tests`.`data_table` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `title` varchar(2000) CHARACTER SET latin1 NOT NULL,
  `description` text CHARACTER SET latin1 NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ;
Run Code Online (Sandbox Code Playgroud)

如果您不想自己创建它,请使用数据生成器生成一些随机数据...

**注意**:列类型应该是latin1_bin执行区分大小写的搜索而不是不区分大小写latin1.对于unicode字符串,我建议utf8_bin使用区分大小写和utf8_general_ci不区分大小写的搜索.

DROP TABLE IF EXISTS `tests`.`data_table_temp`;
CREATE TEMPORARY TABLE `tests`.`data_table_temp`
   SELECT * FROM `tests`.`data_table`;

ALTER TABLE `tests`.`data_table_temp`  ENGINE = MYISAM;

ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` (
  `title` ,
  `description`
);

SELECT *,
       MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score`
  FROM `tests`.`data_table_temp`
 WHERE MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE)
 ORDER BY `score` DESC;

DROP TABLE `tests`.`data_table_temp`;
Run Code Online (Sandbox Code Playgroud)

MySQL API参考页面了解更多相关信息

这样做的缺点是,它不会寻找字母换位或"类似,听起来像"字样.

**更新**

使用Lucene进行搜索,您只需创建一个cron作业(所有Web主机都有此"功能"),此作业将只执行一个PHP脚本(ig"cd/path/to/script; php searchindexer.php" )将更新索引.原因是索引数千个"文档"(行,数据等)可能需要几秒甚至几分钟,但这是为了确保尽可能快地执行所有搜索.因此,您可能希望创建一个由服务器运行的延迟作业.可能是一夜之间,或者在接下来的一个小时内,这取决于您.PHP脚本应如下所示:

$indexer = Zend_Search_Lucene::create('/path/to/lucene/data');

Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  // change this option for your need
  new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

$rowSet = getDataRowSet();  // perform your SQL query to fetch whatever you need to index
foreach ($rowSet as $row) {
   $doc = new Zend_Search_Lucene_Document();
   $doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8'))
  ;
  $indexer->addDocument($doc);
}

// ... you can get as many $rowSet as you want and create as many documents
// as you wish... each document doesn't necessarily need the same fields...
// Lucene is pretty flexible on this

$indexer->optimize();  // do this every time you add more data to you indexer...
$indexer->commit();    // finalize the process
Run Code Online (Sandbox Code Playgroud)

那么,这基本上就是你搜索的方式(基本搜索):

$index = Zend_Search_Lucene::open('/path/to/lucene/data');

// same search options
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
   new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');

$query = 'php +field1:foo';  // search for the word 'php' in any field,
                                 // +search for 'foo' in field 'field1'

$hits = $index->find($query);

$numHits = count($hits);
foreach ($hits as $hit) {
   $score = $hit->score;  // the hit weight
   $field1 = $hit->field1;
   // etc.
}
Run Code Online (Sandbox Code Playgroud)

这里有关于Java,PHP.Net的 Lucene的很棒的网站.

总之,每种搜索方法各有利弊:

  • 您提到了Sphinx搜索,它看起来非常好,只要您可以在您的Web主机上运行deamon.
  • Zend Lucene需要一个cron作业来重新索引数据库.虽然它对用户来说非常透明,但这意味着任何新数据(或已删除的数据!)并不总是与数据库中的数据同步,因此不会立即显示在用户搜索上.
  • MySQL FULLTEXT搜索是好的和快速的,但不会给你前两个的所有功能和灵活性.

如果我遗忘/错过任何内容,请随时评论.


opa*_*tut 21

1.相似性

对于MySQL中的Levenshtein,我发现了这一点,来自www.codejanitor.com/wp/2007/02/10/levenshtein-distance-as-a-mysql-stored-function

SELECT 
    column, 
    LEVENSHTEIN(column, 'search_string') AS distance 
FROM table 
WHERE 
    LEVENSHTEIN(column, 'search_string') < distance_limit
ORDER BY distance DESC
Run Code Online (Sandbox Code Playgroud)

2.包含,不区分大小写

使用LIKEMySQL语句,默认情况下不区分大小写.这%是一个通配符,所以前后可能有任何字符串search_string.

SELECT 
    *
FROM 
    table
WHERE 
    column_name LIKE "%search_string%"
Run Code Online (Sandbox Code Playgroud)

3.包含,区分大小写

MySQL手册帮助:

默认字符集和排序规则是latin1和latin1_swedish_ci,因此非二进制字符串比较默认情况下不区分大小写.这意味着如果使用col_name LIKE'a%'进行搜索,则会获得以A或a开头的所有列值.要使此搜索区分大小写,请确保其中一个操作数具有区分大小写或二进制排序规则.例如,如果要比较具有latin1字符集的列和字符串,则可以使用COLLATE运算符使任一操作数具有latin1_general_cs或latin1_bin排序规则...

我的MySQL设置不支持latin1_general_cslatin1_bin,但它对我使用排序规则很好,utf8_bin因为二进制utf8区分大小写:

SELECT 
    *
FROM 
    table
WHERE 
    column_name LIKE "%search_string%" COLLATE utf8_bin
Run Code Online (Sandbox Code Playgroud)

2./3.按Levenshtein距离排序

SELECT 
    column, 
    LEVENSHTEIN(column, 'search_string') AS distance // for sorting
FROM table 
WHERE 
    column_name LIKE "%search_string%"
    COLLATE utf8_bin // for case sensitivity, just leave out for CI
ORDER BY
    distance
    DESC
Run Code Online (Sandbox Code Playgroud)