MySQL 中的词干提取

Pra*_*til 3 mysql sql mysql-workbench

MySQL 中的词干提取 例如,用户可能会搜索“testing”、“tested”或“tests”。所有这些词都相互关联,因为基本词“test”在所有词中都很常见。有没有办法得到这样的结果或功能?

Gau*_*pal 7

MySQL全文搜索

历史上,MyISAM 引擎支持全文搜索。在 5.6 版本之后,MySQL 也支持 InnoDB 存储引擎中的全文搜索。这是个好消息,因为它使开发人员能够从 InnoDB 的引用完整性、执行事务的能力和行级锁中受益。

在 MySQL 中全文搜索基本上有两种方法:自然语言和布尔模式。(第三个选项通过第二个扩展查询来增强自然语言搜索。)

自然模式和布尔模式之间的主要区别在于布尔模式允许某些运算符作为搜索的一部分。例如,如果某个词在查询中比其他词具有更大的相关性,或者如果某个特定的词应该出现在结果中等,则可以使用布尔运算符。值得注意的是,在这两种情况下,结果都可以按以下计算的相关性进行排序MySQL 在搜索过程中。

最适合我们的问题是在布尔模式下使用 InnoDb 全文搜索。为什么?

  • 我们几乎没有时间来实现搜索功能。
  • 在这一点上,我们没有需要处理的大数据,也没有需要 Elasticsearch 或 Sphinx 之类的大量负载。
  • 我们使用了不支持 Elasticsearch 或 Sphinx 的共享主机,并且在这个阶段硬件非常有限。
  • 虽然我们希望在我们的搜索功能中使用词干,但这并不是一个交易破坏者:我们可以通过一些简单的 PHP 编码和数据非规范化来实现它(在约束范围内)
  • 布尔模式的全文搜索可以搜索带有通配符的词(用于词干)并根据相关性对结果进行排序。

在归一化 Vertabelo 模型中

让我们看看一个简单的搜索是如何工作的。我们将首先创建一个示例表:

CREATE TABLE artists (
         id int(11) NOT NULL AUTO_INCREMENT, name varchar(255) NOT NULL,bio text NOT NULL, CONSTRAINT artists_pk PRIMARY KEY (id)
                    )ENGINE InnoDB;
CREATE  FULLTEXT INDEX artists_idx_1 ON artists (name);
Run Code Online (Sandbox Code Playgroud)

在自然语言模式下

您可以插入一些示例数据并开始测试。(最好将它添加到您的示例数据集中。)例如,我们将尝试搜索 Michael Jackson:

SELECT
    *
FROM
    artists
WHERE
    MATCH (artists.name) AGAINST ('Michael Jackson' IN NATURAL LANGUAGE MODE)
Run Code Online (Sandbox Code Playgroud)

此查询将查找与搜索词匹配的记录,并按相关性对匹配记录进行排序;匹配越好,相关性就越高,结果出现在列表中的位置就越高。在布尔模式

我们可以在布尔模式下执行相同的搜索。如果我们不对查询应用任何运算符,唯一的区别是结果不会按相关性排序:

SELECT
    *
FROM
    artists
WHERE
    MATCH (artists.name) AGAINST ('Michael Jackson' IN BOOLEAN MODE)
Run Code Online (Sandbox Code Playgroud)

布尔模式下的通配符

由于我们要搜索词干和部分词,我们需要通配符 (*)。此运算符可用于布尔模式搜索,这就是我们选择该模式的原因。

因此,让我们释放布尔搜索的力量并尝试搜索艺术家姓名的一部分。我们将使用通配符运算符来匹配名称以“Mich”开头的任何艺术家:

SELECT
    *
FROM
    artists
WHERE
    MATCH (name) AGAINST ('Mich*' IN BOOLEAN MODE)
Run Code Online (Sandbox Code Playgroud)