我正在研究将高棉语(柬埔寨语)的长行分成单个单词(UTF-8)的解决方案.高棉语不会在单词之间使用空格.有一些解决方案,但它们远远不够(这里和这里),那些项目已经落伍了.
以下是需要拆分的高棉样本行(它们可能比这更长):
ចូរសរសើរដល់ទ្រង់ទ្រង់បានប្រទានទាំងអស់នោះមកដល់រូបដោយព្រោះអង្គព្រះយេស៊ូវហើយដែលមិនអាចរកការទាំងអស់នោះដោយសារការប្រព្រឹត្តរបស់អ្នកឡើយឡើយ.
创建分裂高棉语的可行解决方案的目标有两个:它将鼓励那些使用高棉遗留(非Unicode)字体转换为Unicode(具有许多好处)的人,并且它将使遗留的高棉语字体能够被导入进入Unicode以快速使用拼写检查器(而不是手动浏览和分割单词,使用大文档,可能需要很长时间).
我不需要100%的准确度,但速度很重要(特别是因为需要分成高棉语的行可能很长).我愿意接受建议,但目前我有一大堆高棉语单词正确分割(有一个不间断的空格),我创建了一个单词概率词典文件(frequency.csv)作为字典用于分词器.
我在这里发现这个使用Viterbi算法的 python代码,它应该运行得很快.
import re
from itertools import groupby
def viterbi_segment(text):
probs, lasts = [1.0], [0]
for i in range(1, len(text) + 1):
prob_k, k = max((probs[j] * word_prob(text[j:i]), j)
for j in range(max(0, i - max_word_length), i))
probs.append(prob_k)
lasts.append(k)
words = []
i = len(text)
while 0 < i:
words.append(text[lasts[i]:i])
i = lasts[i]
words.reverse()
return words, probs[-1]
def word_prob(word): return dictionary.get(word, 0) / total
def words(text): return re.findall('[a-z]+', …Run Code Online (Sandbox Code Playgroud) python nlp word-boundary text-segmentation southeast-asian-languages
我是Android新手,目前正在运行一些示例应用.从logcat,我注意到消息"10-01 20:14:26.536:D/TextLayoutCache(15027):启用myanmar Zawgyi转换器 "并想知道是什么原因造成的.
这是某种错误吗?
我正在寻找一种在Android中开发应用程序的方法,该应用程序通过文本说越南语.据我所知,默认情况下没有安装越南语TTS.那么那里有适用于Android的越南TTS引擎吗?还有一件事:我假装我安装了越南语TTS引擎,但该方法mTts.setLanguage(Locale)需要合适的语言环境,越南语语言环境不在建议列表中.针对此案例是否有解决方案?
我打算编写一个使用SQLite作为后端的iOS应用程序.我的数据库包含越南文本,例如"HảiSơn".用于Google搜索的用户想要输入搜索字词"hai son"以查找上面的文字.我尝试了以下查询:
SELECT * FROM towns WHERE title LIKE '%hai son%';
Run Code Online (Sandbox Code Playgroud)
我得到了0记录.我该如何使它工作?我知道谷歌和其他搜索引擎处理这种情况,所以它可以完成.我也不想让我的用户输入带有完全变音符号的越南语文本,因为并非所有用户都知道如何操作.
我查看了sqlite3文档,看起来只有三个有效的归类序列:BINARY,NOCASE和RTRIM.我错过了什么吗?
我的表创建时间:
CREATE TABLE towns ( sid INTEGER PRIMARY KEY NOT NULL, title TEXT )
Run Code Online (Sandbox Code Playgroud)
到目前为止,我只使用sqlite3命令行从CSV文件创建数据库,表和导入文本.
我的sqlite3版本是3.7.12
别名给了我一个想法:创建我自己的整理顺序.如果有效,我会发布一个跟进.
我从来没有熟练使用 CSS,但我认为我以前没有遇到过这种情况。
我正在考虑使用时尚将 CSS 添加到我无法直接控制的第三方站点。所以 HTML 和 CSS 并没有真正设置为我想要做的那种自定义。
我想调整的网站不允许很好地控制字体,但它的一些页面(用户创建的)大量使用了一些异国情调的 Unicode 范围(例如高棉语),我的操作系统/浏览器组合选择了一种糟糕的字体:

我是否可以制定一个 CSS 规则,该规则将应用于页面中处于特定 Unicode 范围内的所有文本,以将其设置为已知的良好字体,而无需深入研究页面 HTML/DOM 的结构?
(或者unicode-range只是为了用 webfonts 做一些不同的事情?
快速提问:我可以在Android应用程序中使用缅甸语吗?我想这里更大的问题是关于unicode,但我不知道该问什么.