有人在数据库方面解释"Tokenized Field"吗?

pes*_*sar 3 java mysql sql database indexing

我正在阅读有关SOLR和将MySQL数据库索引到SOLR的内容.

"tokenize"和"un-tokenize"是什么意思?

当字段"规范化"时,它意味着什么?

我知道规范化数据库的方式和意义,但是一个字段?如何简化一个简单的字段?

谢谢

Mic*_*rdt 5

"tokenize"和"un-tokenize"是什么意思?

对字段进行标记可以进行全文搜索,即查找字段中任何位置出现的任何单词.只有当你有一个完整而精确的匹配时,才能找到未被跟踪的字段,例如,如果字段的内容是"蓝月亮",那么只有当你搜索"蓝色月亮"时才能找到它,而不是当你只搜索"蓝色"时.

当字段"规范化"时,它意味着什么?

这很可能是指Unicode规范化 - Unicode有变音符号的单独代码点,例如U + 0060是`(重音符号),因此重音字母è可以是一个Unicode字符(U + 00E8)或由两个组成(U + 0060和U + 0065).但是当然你希望在搜索è时找到它们.