Tim*_*ock 53 mysql algorithm nlp spam phonetics
用于识别[可能] bot生成的用户名.
假设您有一个像"bilbomoothof"这样的用户名..它可能是无稽之谈,但它仍然包含可发音的声音,所以看起来像人类生成的.
我接受它可能是从一个音节字典或单词部分中随机生成的,但让我们假设有问题的机器人有点垃圾.
适用于PHP/MySQL的解决方案最受欢迎.
我同意Mac.但更重要的是,人们有时会使用不可发音的用户名,例如qwerty或rtfmorleave.
为什么要这么麻烦?
<过时和错误,但我不会因为评论而删除>
但更重要的是,没有机器人使用'zetztzgsd'作为用户名,他们有真实姓名,可能的昵称等字典,所以我认为这对你来说是浪费时间
</ absolete和false,但我不会因为评论而删除>
查找n-gram分析.它已成功用于自动检测文本语言,即使在非常短的文本上也能令人惊讶地工作.
在线演示(不再在线)将'bilbomoothof'识别为英语,将'sdfgbhm342r3f'识别为尼泊尔语.它可能总是返回最佳匹配,即使它是非常差的.我认为你可以训练它来辨别'可发音'和'随机'.