如何决定Elasticsearch“音标过滤器”中的哪种语言使用哪种编码器?

Abh*_*hri 5 metaphone phonetics elasticsearch

我在 Elasticsearch 中使用了Metaphonesoundex编码器以及“Phonetic Token Filter”。

变音位对于英语单词很有用。

Soundex适用于英语、印地语以及许多其他语言

我想知道哪些编码器最适合印地语以及其他印度语言(如果可能的话)?

  • 声音指数
  • 变音位
  • 双变音位
  • 精炼_soundex
  • Caverphone1 - 英语(新西兰本地化)
  • Caverphone2 - 英语(新西兰本地化)
  • 科隆 - 德语
  • nysiis - 即兴 Soundex
  • koelnerphonetik - 德语
  • haasephonetik - 德语
  • beider_morse - 英语和多种欧洲语言
  • daitch_mokotoff - 斯拉夫语和意第绪语姓氏

由于Elasticsearch 网站上没有列出我们应该选择哪种语言的编码器。

还请告诉我您已经使用过哪些编码器以及用于哪种语言。

jas*_*hal 4

语音编码器是根据单词发音对单词进行索引的算法。

\n\n

维基百科上有对此的解释

\n\n
\n
    \n
  1. Metaphone、Double Metaphone 和 Metaphone 3:适用于大多数英语单词,而不仅仅是名称。变音位算法是许多流行拼写检查器的基础。Double Metaphone\n 语音编码算法是该算法的第二代\n。
  2. \n
  3. Soundex:开发用于对姓氏进行编码以供人口普查使用。Soundex 代码是由一个单个字母后跟三个数字组成的四个字符的字符串。
  4. \n
  5. Daitch\xe2\x80\x93Mokotoff Soundex:这是 Soundex 的改进,旨在更好地匹配斯拉夫语和日耳曼语起源的姓氏。\n Daitch\xe2\x80\x93Mokotoff Soundex 代码是由六个数字\n 数字组成的字符串。
  6. \n
  7. 科隆语音:这与 Soundex 类似,但更适合德语单词。
  8. \n
  9. 纽约州识别和情报系统(NYSIIS):将相似的音素映射到同一个字母。结果\n是一个读者无需解码即可发音的字符串。
  10. \n
  11. 西部航空于 1977 年开发的匹配评级方法:该算法具有编码和范围比较技术。
  12. \n
  13. Caverphone:创建用于协助 19 世纪末和 20 世纪初选民名册之间的数据匹配,针对新西兰部分地区的口音进行了优化
  14. \n
\n
\n\n

参考文献:\n 上述算法及其子类型的详细信息可在下面的维基百科页面中找到\n 1. https://en.wikipedia.org/wiki/Phonetic_algorithm

\n\n

其中,SoundEx 最适合印度语言\n您可以查看以下资源以了解相同\n1. 印度语言的语音搜索\n2. https://thottingal.in/blog/2009/07/26/indicsoundex/

\n