标签: southeast-asian-languages

分裂高棉语的可行解决方案?

我正在研究将高棉语(柬埔寨语)的长行分成单个单词(UTF-8)的解决方案.高棉语不会在单词之间使用空格.有一些解决方案,但它们远远不够(这里这里),那些项目已经落伍了.

以下是需要拆分的高棉样本行(它们可能比这更长):

ចូរសរសើរដល់ទ្រង់ទ្រង់បានប្រទានទាំងអស់នោះមកដល់រូបដោយព្រោះអង្គព្រះយេស៊ូវហើយដែលមិនអាចរកការទាំងអស់នោះដោយសារការប្រព្រឹត្តរបស់អ្នកឡើយឡើយ.

创建分裂高棉语的可行解决方案的目标有两个:它将鼓励那些使用高棉遗留(非Unicode)字体转换为Unicode(具有许多好处)的人,并且它将使遗留的高棉语字体能够被导入进入Unicode以快速使用拼写检查器(而不是手动浏览和分割单词,使用大文档,可能需要很长时间).

我不需要100%的准确度,但速度很重要(特别是因为需要分成高棉语的行可能很长).我愿意接受建议,但目前我有一大堆高棉语单词正确分割(有一个不间断的空格),我创建了一个单词概率词典文件(frequency.csv)作为字典用于分词器.

我在这里发现这个使用Viterbi算法的 python代码,它应该运行得很快.

import re
from itertools import groupby

def viterbi_segment(text):
    probs, lasts = [1.0], [0]
    for i in range(1, len(text) + 1):
        prob_k, k = max((probs[j] * word_prob(text[j:i]), j)
                        for j in range(max(0, i - max_word_length), i))
        probs.append(prob_k)
        lasts.append(k)
    words = []
    i = len(text)
    while 0 < i:
        words.append(text[lasts[i]:i])
        i = lasts[i]
    words.reverse()
    return words, probs[-1]

def word_prob(word): return dictionary.get(word, 0) / total
def words(text): return re.findall('[a-z]+', …
Run Code Online (Sandbox Code Playgroud)

python nlp word-boundary text-segmentation southeast-asian-languages

15
推荐指数
1
解决办法
1994
查看次数

是什么导致消息"启用缅甸Zawgyi转换器"

我是Android新手,目前正在运行一些示例应用.从logcat,我注意到消息"10-01 20:14:26.536:D/TextLayoutCache(15027):启用myanmar Zawgyi转换器 "并想知道是什么原因造成的.

这是某种错误吗?

android southeast-asian-languages

9
推荐指数
1
解决办法
2124
查看次数

Android越南语文本到语音?

我正在寻找一种在Android中开发应用程序的方法,该应用程序通过文本说越南语.据我所知,默认情况下没有安装越南语TTS.那么那里有适用于Android的越南TTS引擎吗?还有一件事:我假装我安装了越南语TTS引擎,但该方法mTts.setLanguage(Locale)需要合适的语言环境,越南语语言环境不在建议列表中.针对此案例是否有解决方案?

android text-to-speech southeast-asian-languages

6
推荐指数
1
解决办法
3156
查看次数

SQLite中的越南语Unicode文本搜索

我打算编写一个使用SQLite作为后端的iOS应用程序.我的数据库包含越南文本,例如"HảiSơn".用于Google搜索的用户想要输入搜索字词"hai son"以查找上面的文字.我尝试了以下查询:

SELECT * FROM towns WHERE title LIKE '%hai son%';
Run Code Online (Sandbox Code Playgroud)

我得到了0记录.我该如何使它工作?我知道谷歌和其他搜索引擎处理这种情况,所以它可以完成.我也不想让我的用户输入带有完全变音符号的越南语文本,因为并非所有用户都知道如何操作.

更新

我查看了sqlite3文档,看起来只有三个有效的归类序列:BINARY,NOCASE和RTRIM.我错过了什么吗?

更多信息

我的表创建时间:

CREATE TABLE towns ( sid INTEGER PRIMARY KEY NOT NULL, title TEXT )
Run Code Online (Sandbox Code Playgroud)

到目前为止,我只使用sqlite3命令行从CSV文件创建数据库,表和导入文本.

我的sqlite3版本是3.7.12

更新2

别名给了我一个想法:创建我自己的整理顺序.如果有效,我会发布一个跟进.

sqlite unicode search ios southeast-asian-languages

5
推荐指数
1
解决办法
1874
查看次数

我可以使用 CSS“unicode-range”在整个(第三方)页面上指定字体吗?

我从来没有熟练使用 CSS,但我认为我以前没有遇到过这种情况。

我正在考虑使用时尚将 CSS 添加到我无法直接控制的第三方站点。所以 HTML 和 CSS 并没有真正设置为我想要做的那种自定义。

我想调整的网站不允许很好地控制字体,但它的一些页面(用户创建的)大量使用了一些异国情调的 Unicode 范围(例如高棉语),我的操作系统/浏览器组合选择了一种糟糕的字体:

两个布偶

我是否可以制定一个 CSS 规则,该规则将应用于页面中处于特定 Unicode 范围内的所有文本,以将其设置为已知的良好字体,而无需深入研究页面 HTML/DOM 的结构?

(或者unicode-range只是为了用 webfonts 做一些不同的事情?

css unicode font-face stylish southeast-asian-languages

2
推荐指数
1
解决办法
7351
查看次数

Android中的缅甸语

快速提问:我可以在Android应用程序中使用缅甸语吗?我想这里更大的问题是关于unicode,但我不知道该问什么.

unicode android southeast-asian-languages

1
推荐指数
2
解决办法
1万
查看次数