鉴于两个字符串text1和text2
public SOMEUSABLERETURNTYPE Compare(string text1, string text2)
{
// DO SOMETHING HERE TO COMPARE
}
Run Code Online (Sandbox Code Playgroud)
例子:
第一个字符串:StackOverflow
第二个字符串:StaqOverflow
回报:相似度为91%
返回可以是%或类似的东西.
第一个字符串:简单的文本测试
第二个字符串:复杂的文本测试
返回:可以认为这些值相等
有任何想法吗?做这个的最好方式是什么?
用于识别[可能] bot生成的用户名.
假设您有一个像"bilbomoothof"这样的用户名..它可能是无稽之谈,但它仍然包含可发音的声音,所以看起来像人类生成的.
我接受它可能是从一个音节字典或单词部分中随机生成的,但让我们假设有问题的机器人有点垃圾.
适用于PHP/MySQL的解决方案最受欢迎.
我想将语音文本(IPA)翻译成合成语音.我找到的没有TTS软件可以做到这一点,我也找不到任何其他软件.有提示吗?这在理论上是否具有良好的质量,或者不是语音文本(在这种情况下是IPA)对此有用吗?
Loquendo的TTS支持阅读语音文本,但结果非常糟糕.我打算联系他们的支持以获得一些帮助.
我想在我的Android应用程序中以语音方式比较字符串.但这里的特例是,我想比较用英语写的印度语单词.例如,我想检查"Edhu""Adhu""Yethu"在语音上是否相等,它们在泰米尔语中都是相同的.但是使用英文脚本来写印度语的人使用不同的拼写来表达这个词.在这种情况下如何比较单词?
我试过了Levenshtein.但我不知道如何将它返回的数字转换为相等.
我尝试了Soundex,当这个词的第一个字母发生变化时,Soundex代码就不一样了.但它能够找出类似的声音部分.我不明白它是如何工作的.
soundex.encode("Yethu") (soundex.encode("Edhu")) (soundex.encode("adhu"))
Y300 E300 A300
Run Code Online (Sandbox Code Playgroud) 我试图想出一个隐式拼写检查器,它将使用输入单词的映射到某种更一般的语音表示来解释可能发生的拼写错误,基本上对于一个会自动纠正你的拼写到一定程度的搜索栏.我一直在研究的两件事是metaphone,nysiis和soundex,但我真的不知道哪个更适合这个应用程序.
我希望优先选择更多的匹配而不是更少的匹配,我希望匹配更加通用,因此我想与soundex一起使用,这似乎是比原始的metaphone更接近的映射,但我真的不知道模糊性的差异有多大.我知道nysiis与soundex非常相似,但我不太清楚它们有多相似,或者nysiis与metaphone相比如何.
我也在寻找最快的解决方案.我知道这些语音映射器通常很快,但我不确定哪个是最快的,考虑到我希望能够在不增加搜索时间的情况下检查拼写,速度是一个考虑因素.思考?
我想以编程方式检查字符串是否可以发音或需要拼写出来.
例如,internationalization可以读出,但i18n不能,也不能hhdirgxzf.
我可以想到一些简单的启发式方法,例如检查字符串是否包含非字母字符,但我希望有更强大和科学的方法来实现它.是否有算法方法可以根据发音的容易程度对字符串进行评分?
相关:有没有办法对一个单词的发音难度进行排名?,但我没有列表,我无法预先计算.
根据评论更新.
hhdirgxzf但它不会发出一个自然语言单词,它需要被打破.Soundex似乎是在某些DBMS中实现的,但是有没有任何算法改进明显优于Soundex的当前实现?
我正在尝试将法语单词的发音保存到 .wav 或 .mp3 文件中。
我想知道 Google Translate API 上是否有任何地方(因为它具有发音功能)可以让我实现这一目标。其他库也可以。
我怎么能得到一种语言用另一种语言的另一个字符串写的字符串的声音相似度"评级":即一种识别该字符串的算法
" David Letterman "和" דודלטרמן "是听起来相似的字符串.
- 哦,是的,顺便说一句,上面是希伯来语,你猜对了:"大卫莱特曼",它的声音/口语与英语几乎相同.
我所拥有的唯一原材料是各自语言的unicode字符串.也就是说,我没有字符串的音素或语音转录/翻译.
我已经实现了一个Soundex实现调整的东西,它的工作原理一般.这是要走的路吗?