相关疑难解决方法(0)

认识到CJK是一个普通群体:我正在制作蒙古文垂直脚本TextView.为此,我需要将文本行旋转90度,因为字形水平存储在字体中.但是,对于CJK语言,我需要再次将它们旋转回来,以便它们以正确的方向书写,但只是在线上堆叠在一起.
将CJK区分为特定语言:我也制作蒙古语词典,当用户输入CJK字符进行查找时,我想自动识别该语言.因为汉字也被日本人和韩国人使用,我猜我不能完全实现这一点,但我想在编码允许的最大程度上做到这一点.

在语言方面,我所知道的子类别是

中国传统人物
中文简体字
日文汉字(汉字)
日本平假名(母语字母)
日语片假名(用于写外来词的字母)
韩语韩语(语音)
韩国汉字(汉字)

为了完整起见,汉语也用于越南语(因此CJK也称为CJKV).对于我目前的目的,我不需要担心它,但它可能是未来的考虑因素.我也忽略了像汉语拼音或日本罗马字母这样的罗马字母.它们将在TextView中与英语和蒙古语相同(即与其余部分一起旋转90度).在台湾使用的Bopomofo也可能是未来的考虑因素,但我暂时不理会它.另请参见此处和此处的语言示例.

我已经看到了一些相关的问题,这些问题通常涉及Java或Android中的一种特定语言,但没有一个与规范性答案有关的首要问题.其他问题对于Unicode更为通用,但没有说明如何在Java和Android中执行此操作.以下是一些具体的内容.

所以我的问题是,我可以使用Unicode代码点区分CJK语言多少？如何在Android中测试它们？我在Java和Android上看到了一些较新的测试,虽然这些测试很有用,但我还需要支持较旧的Android设备.

java unicode android cjk

Sur*_*gch

2017 05-23

6
推荐指数

1
解决办法

3139
查看次数

正则表达式匹配R中的任何汉字

匹配R中任何汉字的正则表达式是什么？

[\\p{Han}] 似乎没有按预期工作。

v=c("a","b","c","?","e","?")
grep("[\\p{Han}]",v, value = TRUE)

[1] "a"

Run Code Online (Sandbox Code Playgroud)

regex r

Sat*_*ati

2019 06-23

5
推荐指数

0
解决办法

88
查看次数

正则表达式允许非ascii和外国字母？

是否可以创建一个正则表达式以允许非ascii字母和拉丁字母,例如中文或希腊符号(例如,允许A汉语AbN汉语)？

我目前有以下^[\w\d][\w\d_\-\.\s]*$只允许拉丁字母.

.net c# regex

Xer*_*xes

2012 10-25

4
推荐指数

1
解决办法

2853
查看次数

如何使flex(词法扫描器)读取UTF-8字符输入？

似乎flex不支持UTF-8输入.每当扫描程序遇到非ASCII字符时,它就会停止扫描,就像它是EOF一样.

有没有办法强迫flex吃掉我的UTF-8字符？我不希望它实际上匹配UTF-8字符,只是在使用'.'时吃掉它们.图案.

有什么建议吗？

编辑

最简单的解决方案是:

任何[\ x00-\xff]

并使用'ANY'而不是'.' 在我的规则中.

utf-8 lexical-analysis flex-lexer

Mar*_*ote

2017 11-20

3
推荐指数

1
解决办法

6674
查看次数

标签统计

flex-lexer ×2

java ×2

regex ×2

unicode ×2

.net ×1

android ×1

c# ×1

cjk ×1

cross-platform ×1

filenames ×1

filesystems ×1

lexical-analysis ×1

r ×1

utf-8 ×1

是否有一个跨平台的Java方法来删除文件名特殊字符？

Flex(词法分析器)支持unicode

在Android中区分CJK语言(中文,日文,韩文)

正则表达式匹配R中的任何汉字

正则表达式允许非ascii和外国字母？

如何使flex(词法扫描器)读取UTF-8字符输入？

标签 统计

标签统计