标签: southeast-asian-languages

分裂高棉语的可行解决方案？

我正在研究将高棉语(柬埔寨语)的长行分成单个单词(UTF-8)的解决方案.高棉语不会在单词之间使用空格.有一些解决方案,但它们远远不够(这里和这里),那些项目已经落伍了.

以下是需要拆分的高棉样本行(它们可能比这更长):

ចូរសរសើរដល់ទ្រង់ទ្រង់បានប្រទានទាំងអស់នោះមកដល់រូបដោយព្រោះអង្គព្រះយេស៊ូវហើយដែលមិនអាចរកការទាំងអស់នោះដោយសារការប្រព្រឹត្តរបស់អ្នកឡើយឡើយ.

创建分裂高棉语的可行解决方案的目标有两个:它将鼓励那些使用高棉遗留(非Unicode)字体转换为Unicode(具有许多好处)的人,并且它将使遗留的高棉语字体能够被导入进入Unicode以快速使用拼写检查器(而不是手动浏览和分割单词,使用大文档,可能需要很长时间).

我不需要100%的准确度,但速度很重要(特别是因为需要分成高棉语的行可能很长).我愿意接受建议,但目前我有一大堆高棉语单词正确分割(有一个不间断的空格),我创建了一个单词概率词典文件(frequency.csv)作为字典用于分词器.

我在这里发现这个使用Viterbi算法的 python代码,它应该运行得很快.

import re
from itertools import groupby

def viterbi_segment(text):
    probs, lasts = [1.0], [0]
    for i in range(1, len(text) + 1):
        prob_k, k = max((probs[j] * word_prob(text[j:i]), j)
                        for j in range(max(0, i - max_word_length), i))
        probs.append(prob_k)
        lasts.append(k)
    words = []
    i = len(text)
    while 0 < i:
        words.append(text[lasts[i]:i])
        i = lasts[i]
    words.reverse()
    return words, probs[-1]

def word_prob(word): return dictionary.get(word, 0) / total
def words(text): return re.findall('[a-z]+', …

Run Code Online (Sandbox Code Playgroud)

python nlp word-boundary text-segmentation southeast-asian-languages

Nat*_*han

2017 05-23

15
推荐指数

1
解决办法

1994
查看次数

是什么导致消息"启用缅甸Zawgyi转换器"

我是Android新手,目前正在运行一些示例应用.从logcat,我注意到消息"10-01 20:14:26.536:D/TextLayoutCache(15027):启用myanmar Zawgyi转换器 "并想知道是什么原因造成的.

这是某种错误吗？

android southeast-asian-languages

cle*_*ake

2014 10-13

9
推荐指数

1
解决办法

2124
查看次数

Android越南语文本到语音？

我正在寻找一种在Android中开发应用程序的方法,该应用程序通过文本说越南语.据我所知,默认情况下没有安装越南语TTS.那么那里有适用于Android的越南TTS引擎吗？还有一件事:我假装我安装了越南语TTS引擎,但该方法mTts.setLanguage(Locale)需要合适的语言环境,越南语语言环境不在建议列表中.针对此案例是否有解决方案？

android text-to-speech southeast-asian-languages

Jat*_*ing

2014 09-08

6
推荐指数

1
解决办法

3156
查看次数

SQLite中的越南语Unicode文本搜索

我打算编写一个使用SQLite作为后端的iOS应用程序.我的数据库包含越南文本,例如"HảiSơn".用于Google搜索的用户想要输入搜索字词"hai son"以查找上面的文字.我尝试了以下查询:

SELECT * FROM towns WHERE title LIKE '%hai son%';

Run Code Online (Sandbox Code Playgroud)

我得到了0记录.我该如何使它工作？我知道谷歌和其他搜索引擎处理这种情况,所以它可以完成.我也不想让我的用户输入带有完全变音符号的越南语文本,因为并非所有用户都知道如何操作.

更新

我查看了sqlite3文档,看起来只有三个有效的归类序列:BINARY,NOCASE和RTRIM.我错过了什么吗？

更新2

别名给了我一个想法:创建我自己的整理顺序.如果有效,我会发布一个跟进.

sqlite unicode search ios southeast-asian-languages

Hai*_* Vu

2014 09-08

5
推荐指数

1
解决办法

1874
查看次数

我可以使用 CSS“unicode-range”在整个（第三方）页面上指定字体吗？

我从来没有熟练使用 CSS，但我认为我以前没有遇到过这种情况。

我正在考虑使用时尚将 CSS 添加到我无法直接控制的第三方站点。所以 HTML 和 CSS 并没有真正设置为我想要做的那种自定义。

我想调整的网站不允许很好地控制字体，但它的一些页面（用户创建的）大量使用了一些异国情调的 Unicode 范围（例如高棉语），我的操作系统/浏览器组合选择了一种糟糕的字体：

两个布偶

我是否可以制定一个 CSS 规则，该规则将应用于页面中处于特定 Unicode 范围内的所有文本，以将其设置为已知的良好字体，而无需深入研究页面 HTML/DOM 的结构？

（或者unicode-range只是为了用 webfonts 做一些不同的事情？

css unicode font-face stylish southeast-asian-languages

hip*_*ail

2015 02-05

2
推荐指数

1
解决办法

7351
查看次数

Android中的缅甸语

快速提问:我可以在Android应用程序中使用缅甸语吗？我想这里更大的问题是关于unicode,但我不知道该问什么.

unicode android southeast-asian-languages

use*_*613

2014 09-08

1
推荐指数

2
解决办法

1万
查看次数

标签统计

southeast-asian-languages ×6

android ×3

unicode ×3

css ×1

font-face ×1

ios ×1

nlp ×1

python ×1

search ×1

sqlite ×1

stylish ×1

text-segmentation ×1

text-to-speech ×1

word-boundary ×1

分裂高棉语的可行解决方案？

是什么导致消息"启用缅甸Zawgyi转换器"

Android越南语文本到语音？

SQLite中的越南语Unicode文本搜索

更新

更多信息

更新2

我可以使用 CSS“unicode-range”在整个（第三方）页面上指定字体吗？

Android中的缅甸语

标签 统计

标签统计