标签: cjk

当您双击日语文本时,Chrome 如何决定要突出显示的内容?

如果您在 Chrome 中双击英文文本,则会突出显示您单击的以空格分隔的单词。这并不奇怪。然而,前几天我在阅读一些日语文本时点击并注意到一些单词在单词边界处突出显示,即使日语没有空格。这是一些示例文本:

?????????????????????????????????????????????????????? ???

例如,如果您单击 ???,即使它不是单个字符类(这是汉字和平假名的混合),Chrome 也会正确地将其突出显示为单个单词。并非所有的亮点都是正确的,但它们似乎不是随机的。

Chrome 如何决定在这里突出显示什么?我尝试在 Chrome 源代码中搜索“日语单词”,但只找到了一个实验模块的测试,该模块在我的 Chrome 版本中似乎并不活跃。

javascript google-chrome cjk

217
推荐指数
2
解决办法
3万
查看次数

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验,到目前为止,哪些Unicode字符,代码点,BMP(基本多语言平面)之外的范围是最常见的?这些是需要UTF-8中的4个字节或UTF-16中的代理项.

我希望答案是在名称中使用的中文和日文字符,但不包括在最广泛的CJK多字节字符集中,但在我最常用的项目上,英文维基词典,我们发现哥特字母是到目前为止更为常见.

UPDATE

我写了几个软件工具来扫描整个维基百科上的非BMP字符,我惊讶地发现,即使在日语维基百科中,哥特字母也是最常见的.在中文维基百科中也是如此,但它也有许多中文字符被使用多达50或70次,包括"",""和"".

unicode codepoint cjk surrogate-pairs astral-plane

101
推荐指数
3
解决办法
2万
查看次数

Unicode中的汉字完整范围是什么?

U + 4E00..U + 9FFF是整套的一部分,但不是全部

unicode cjk

83
推荐指数
4
解决办法
9万
查看次数

Java正则表达式支持Unicode?

要匹配A到Z,我们将使用正则表达式:

[A-ZA-Z]

如何让正则表达式匹配用户输入的utf8字符?例如中文单词,如环保部

java regex unicode cjk

69
推荐指数
3
解决办法
6万
查看次数

简体中文和繁体中文的语言代码?

我们正在我们的网站上创建多语言子网站.

我想使用2个字母的语言代码.西班牙语和法语很容易.他们会得到以下网址:

mydomain.com/es
mydomain.com/fr
Run Code Online (Sandbox Code Playgroud)

但是我遇到了传统和简体中文的问题.是否有两个字母代码用于这些语言的标准?

mydomain.com/zh
mydomain.com/?
Run Code Online (Sandbox Code Playgroud)

utf-8 internationalization cjk chinese-locale

67
推荐指数
3
解决办法
8万
查看次数

检测窗口字体大小(100%,125%,150%)

我创建了一个完美的应用程序,直到用户选择125%或150%.这会打破我的申请.我后来找到了一种通过检测DPI来找到字体大小的方法.

在中文版的Windows 7开始使用我的应用程序之前,这一点很有效.整个应用程序在中文窗口7打破.从我所知道的(我无法测试它,因为我只有英文版本和安装语言包不会导致问题)中文字符导致一个奇怪的DPI打破了我的应用程序.

我目前的代码是这样的:

if (dpi.DpiX == 120) // For 125% fonts
{
    // Resize form and set default font to correct problems
}
else if (dpi.DpiX == 96) // For 100 and 150% fonts
{
    // Resize form and set default font to correct problems
}
Run Code Online (Sandbox Code Playgroud)

在Windows 7的英文版本中工作得很好,但不知何故中文版本跳过这个,并且表单会自行破坏,控件甚至不显示,字体非常大并且超越问题,图片框被移动.

那么在不检测API的情况下检测Windows字体比例(100%,125%和150%)的好方法是什么?我需要一些可以在所有Windows 7操作系统和语言上运行的实用程序.

.net c# cjk windows-7 winforms

40
推荐指数
2
解决办法
7万
查看次数

将TTC字体转换或提取为TTF - 如何?

我已经超过8个小时试图使STHeiti Medium.ttc.zip字体在Windows上运行.

但我不能让它发挥作用.是否有人能够在Windows上运行?

fonts truetype cjk opentype

32
推荐指数
4
解决办法
11万
查看次数

有没有好的开源或免费提供的中文分词算法?

正如问题中的措辞,我正在寻找一个免费的和/或开源的中文文本分割算法,我确实理解这是一个非常难以解决的任务,因为有很多歧义.我知道有谷歌的API,但它确实是一个黑盒子,即没有太多关于它正在做什么的信息正在通过.

algorithm open-source cjk text-segmentation

28
推荐指数
2
解决办法
9456
查看次数

Php检查字符串是否有中文字符

我有字符串$str,我想检查它的内容是否有中文字符(真/假)

$str = "?????,?????????????????";
Run Code Online (Sandbox Code Playgroud)

你能帮我么?

谢谢!阿德里安

php regex string cjk

26
推荐指数
1
解决办法
2万
查看次数

在Android上看起来像中文的日文字符

PREAMBLE:从API 17(Android 4.2)开始,有一种方法TextView.setTextLocale()可以明确地解决TextViews和派生类的这个问题.分配日语语言环境(Locale.JAPAN),Unihan字符将显示日语.


我在Android上有一个应用程序,它在WebViews和TextViews中显示日文文本.按照惯例,在中国和日本,有一些汉字(汉字)看起来不同,但共享相同的Unicode码点.通常,浏览器会依赖lang标签来选择正确的字形.在Android上,它们都默认为中文形状,我想要日本形状.

这篇文章很好地解释了这个问题.本文也可以作为问题的完美例证 - 当在Android上观看(最多2.2)时,"语言相关字符示例"中的字符看起来都是一样的,中文也是如此.

使用该lang="ja"属性没有帮助.将整个系统区域设置切换为日语也无济于事.

我想知道在日本销售的Android手机.像rect,今,化这样的人物也会看起来像中国式吗?我假设不是.

所以问题是:那里有Android官方本地化图片吗?我可以让一个人在模拟器上运行吗?DroidSansFallback字体仍然是那些唯一支持CJK的字体吗?如果是的话,它与香草美国Android上的相同吗?

我有点希望日语字形隐藏在字体深处(Unicode私有区域或其他东西).如果是这样,我可以利用它们......

编辑:位于DroidSansJapanese.ttf,通过复制到/ system/fonts,重新启动它在模拟器上安装.它对Unihan文章的外观没有任何影响.即使日文输入的提示区域(应该知道更好)也显示为中文.

我怎么知道DroidSansJapanese.ttf的字体名称?我觉得它仍然是Droid Sans,与内置的DroidSansFallback字体相同.但是,如果它们包含相同的字体,那么哪个应该优先考虑?有人会想 - 系统区域设置,但显然不是.Android中的字体只是通过复制安装,对吗?

unicode android localization cjk

25
推荐指数
1
解决办法
7475
查看次数