PHP中的智能音译

ark*_*ate 13 php nlp

我有兴趣编写一个PHP脚本(我确实欢迎与语言无关的建议),这些脚本会将用英语(phoenetically)编写的句子或单词翻译成另一种语言的脚本.因为我正在看英语写的电音(即通过耳朵):我必须处理同一个单词的变体拼写.

假设罗马化没有标准(例如,在中文中,你有简化的韦德等)

有没有人对我可以从哪里开始有任何建议?

编辑:我纯粹是为了教育目的这样做,和我最初的印象是为了搞清楚(不同的拼写之间的连接可能在IM消息,写的罗马化形式的Facebook帖子的语料库中找到语言),你需要某种机器学习工具.但是,我想知道我是否走在正确的轨道上,并且我想要了解下一步我应该研究什么以使其工作(例如:我应该研究哪种机器学习工具?) .

tim*_*ail 2

我知道至少对于日语,你有一定数量的字母组合。

\n\n

所以,你可以做一些事情,比如创建一个像这样的匹配数组

\n\n
array(\n  \'oo\' => \'\xe3\x81\x8a\xe3\x81\x86\',\n  \'oh\' => \'\xe3\x81\x8a\xe3\x81\x86\',\n  \'ou\' => \'\xe3\x81\x8a\xe3\x81\x86\'\n)\n
Run Code Online (Sandbox Code Playgroud)\n\n

当然,继续,并确保你不匹配“su”,而它应该是“tsu”。

\n\n

当然,这只是一个起点。

\n\n

机器学习可能对中文最实用......但这是平假名的一个粗略的开始: https: //gist.github.com/1154969

\n