我需要找到一种相当有效的方法来检测单词中的音节.例如,
隐形 - > in-vi-sib-le
可以使用一些音节化规则:
V CV VC CVC CCV CCCV CVCC
*其中V是元音,C是辅音.例如,
发音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)
我尝试过很少的方法,其中包括使用正则表达式(只有你想要计算音节才有用)或硬编码规则定义(证明效率非常低效的强力方法),最后使用有限状态自动机(没有任何有用的结果).
我的应用程序的目的是创建一个给定语言的所有音节的字典.该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成.
如果除了我之前的方法之外,我可以提供另一种方法来解决这个问题.
我在Java工作,但C/C++,C#,Python,Perl ......中的任何提示都适合我.