标签: phonetics

如何测量2个字符串之间的相似度?

鉴于两个字符串text1text2

public SOMEUSABLERETURNTYPE Compare(string text1, string text2)
{
     // DO SOMETHING HERE TO COMPARE
}
Run Code Online (Sandbox Code Playgroud)

例子:

  1. 第一个字符串:StackOverflow

    第二个字符串:StaqOverflow

    回报:相似度为91%

    返回可以是%或类似的东西.

  2. 第一个字符串:简单的文本测试

    第二个字符串:复杂的文本测试

    返回:可以认为这些值相等

有任何想法吗?做这个的最好方式是什么?

c# string comparison phonetics

55
推荐指数
4
解决办法
4万
查看次数

如何检查字符串是否随机化,或人类生成和发音?

用于识别[可能] bot生成的用户名.

假设您有一个像"bilbomoothof"这样的用户名..它可能是无稽之谈,但它仍然包含可发音的声音,所以看起来像人类生成的.

我接受它可能是从一个音节字典或单词部分中随机生成的,但让我们假设有问题的机器人有点垃圾.

  1. 假设您有一个像"sdfgbhm342r3f"这样的用户名,对于人来说,这显然是一个随机字符串.但这可以通过编程方式识别吗?
  2. 有没有可用的算法(类似于Soundex等),可以识别字符串中的可发音如此?

适用于PHP/MySQL的解决方案最受欢迎.

mysql algorithm nlp spam phonetics

53
推荐指数
4
解决办法
2994
查看次数

我在哪里可以获得带有结构化数据的英语词典?

我想以结构化格式(如TXT,XML或SQL)下载英语词典 - 而不仅仅是单词列表.

具体来说,我需要语音发音词性(不需要定义).

令人惊讶的是,我无法在任何地方找到这个.维基词典可供下载,但它本身只是MediaWiki文章.抓取所有文章并提取语音和词性将是一项巨大的练习.

这有可用吗?我不介意付钱.

编辑:有几个人问过我想做什么.我的迫切需要只是好奇心,例如"最常见的双音节动词是什么?".最终,我的希望是一个可以帮助您找到可用域名的工具,并通过配对正确的词性,以及语音匹配的奖励积分来实现.

注意:交叉发布英语语言和用法.

resources open-source phonetics

36
推荐指数
4
解决办法
2万
查看次数

是否有文本转语音软件接受基于IPA的语音转录?

我想将语音文本(IPA)翻译成合成语音.我找到的没有TTS软件可以做到这一点,我也找不到任何其他软件.有提示吗?这在理论上是否具有良好的质量,或者不是语音文本(在这种情况下是IPA)对此有用吗?

Loquendo的TTS支持阅读语音文本,但结果非常糟糕.我打算联系他们的支持以获得一些帮助.

text-to-speech phonetics

30
推荐指数
2
解决办法
2万
查看次数

语音搜索印度语

我想在我的Android应用程序中以语音方式比较字符串.但这里的特例是,我想比较用英语写的印度语单词.例如,我想检查"Edhu""Adhu""Yethu"在语音上是否相等,它们在泰米尔语中都是相同的.但是使用英文脚本来写印度语的人使用不同的拼写来表达这个词.在这种情况下如何比较单词?

我试过了Levenshtein.但我不知道如何将它返回的数字转换为相等.

我尝试了Soundex,当这个词的第一个字母发生变化时,Soundex代码就不一样了.但它能够找出类似的声音部分.我不明白它是如何工作的.

 soundex.encode("Yethu")  (soundex.encode("Edhu"))  (soundex.encode("adhu")) 
 Y300                       E300                       A300
Run Code Online (Sandbox Code Playgroud)

java android soundex apache-commons phonetics

21
推荐指数
1
解决办法
827
查看次数

metaphone与soundex对比NYSIIS

我试图想出一个隐式拼写检查器,它将使用输入单词的映射到某种更一般的语音表示来解释可能发生的拼写错误,基本上对于一个会自动纠正你的拼写到一定程度的搜索栏.我一直在研究的两件事是metaphone,nysiis和soundex,但我真的不知道哪个更适合这个应用程序.

我希望优先选择更多的匹配而不是更少的匹配,我希望匹配更加通用,因此我想与soundex一起使用,这似乎是比原始的metaphone更接近的映射,但我真的不知道模糊性的差异有多大.我知道nysiis与soundex非常相似,但我不太清楚它们有多相似,或者nysiis与metaphone相比如何.

我也在寻找最快的解决方案.我知道这些语音映射器通常很快,但我不确定哪个是最快的,考虑到我希望能够在不增加搜索时间的情况下检查拼写,速度是一个考虑因素.思考?

nlp soundex machine-learning metaphone phonetics

11
推荐指数
1
解决办法
7108
查看次数

如何检查字符串是否可以发音?

我想以编程方式检查字符串是否可以发音或需要拼写出来.

例如,internationalization可以读出,但i18n不能,也不能hhdirgxzf.

我可以想到一些简单的启发式方法,例如检查字符串是否包含非字母字符,但我希望有更强大和科学的方法来实现它.是否有算法方法可以根据发音的容易程度对字符串进行评分?

相关:有没有办法对一个单词的发音难度进行排名?,但我没有列表,我无法预先计算.


根据评论更新.

  • 由于我是英语演讲者,我对英语感兴趣,但我可以想象一种基于声音和说话方式的算法,而不是特定语言的特征.
  • 通过发音我的意思是字符串可以自然地读出,它可以发音,hhdirgxzf但它不会发出一个自然语言单词,它需要被打破.
  • 我想到的一个特定用例是我发送字符串的地方,我想使用基本的文本到语音系统来大声读出它们.我想确定字符串中的哪些令牌让TTS系统尝试发音,哪些令其拼写出来,如果不自信则在拼写错误.

algorithm phonetics

11
推荐指数
1
解决办法
1158
查看次数

Soundex有没有改进?

Soundex似乎是在某些DBMS中实现的,但是有没有任何算法改进明显优于Soundex的当前实现?

database soundex phonetics

9
推荐指数
1
解决办法
952
查看次数

使用 Google Translate API 获取单词的发音

我正在尝试将法语单词的发音保存到 .wav 或 .mp3 文件中。

我想知道 Google Translate API 上是否有任何地方(因为它具有发音功能)可以让我实现这一目标。其他库也可以。

audio text-to-speech google-translate phonetics

9
推荐指数
1
解决办法
2万
查看次数

比较不同语言的短字符串以获得相似的声音 - 是Soundex的答案吗?

我怎么能得到一种语言用另一种语言的另一个字符串写的字符串的声音相似度"评级":即一种识别该字符串的算法

" David Letterman "和" דודלטרמן "是听起来相似的字符串.

- 哦,是的,顺便说一句,上面是希伯来语,你猜对了:"大卫莱特曼",它的声音/口语与英语几乎相同.

我所拥有的唯一原材料是各自语言的unicode字符串.也就是说,我没有字符串的音素或语音转录/翻译.

我已经实现了一个Soundex实现调整的东西,它的工作原理一般.这是要走的路吗?

unicode soundex similarity match phonetics

8
推荐指数
1
解决办法
2017
查看次数