标签: cjk

SQL Server数据库字段用于处理韩文和中文字符

是否可以在SQLServer中有一个可以存储中文,韩文和欧洲字符的字段?我的汉字变成了?????

数据类型也是NVARCHAR.

database sql-server internationalization cjk

17
推荐指数
1
解决办法
3万
查看次数

将带编号的拼音转换为带有音标的拼音

是否有任何脚本,库,或使用程序PythonBASH工具(例如awk,perl,sed),它可以正确地转换编号的拼音(如dian4 nao3)为UTF-8带声调的拼音(如厂甸nǎo)?

我找到了以下示例,但它们需要PHP#C:

我也发现了各种在线工具,但它们无法处理大量的转换.

python bash cjk

17
推荐指数
4
解决办法
2688
查看次数

在单词之间没有空格的语言中断(例如亚洲语)?

我想用日文和中文文本以及任何其他语言进行MySQL全文搜索工作.问题是这些语言和其他语言通常不会在单词之间留有空格.如果必须键入与文本中相同的句子,则搜索无用.

我不能只在每个角色之间放一个空格,因为英语也必须起作用.我想用PHP或MySQL解决这个问题.

我可以配置MySQL来识别应该是自己的索引单元的字符吗?是否有一个PHP模块可以识别这些字符,所以我可以在它们周围为索引抛出空格?

更新

部分解决方案:

$string_with_spaces =
  preg_replace( "/[".json_decode('"\u4e00"')."-".json_decode('"\uface"')."]/",
  " $0 ", $string_without_spaces );
Run Code Online (Sandbox Code Playgroud)

这使得一个角色类至少出现在我需要特别处理的一些角色中.我应该提一下,搞定索引文本是可以接受的.

有没有人知道我需要插入空格的所有字符范围?

此外,必须有一种更好的,可移植的方式来表示PHP中的这些字符?Literal Unicode中的源代码并不理想; 我不会认出所有人物; 它们可能无法在我必须使用的所有机器上渲染.

php full-text-search tokenize cjk wordbreaker

16
推荐指数
1
解决办法
4691
查看次数

如何在Ruby中检测字符串中的某些Unicode字符?

给定Ruby 1.8.7中的字符串(没有支持带有\ p {}的Unicode属性的真棒Oniguruma正则表达式引擎),我希望能够确定该字符串是否包含一个或多个中文,日文或韩文字符; 即

class String
  def contains_cjk?
    ...
  end
end

>> '???'.contains_cjk?
=> true
>> '?? ????'.contains_cjk?
=> true
>> '????????'.contains_cjk?
=> true
>> 'Watashi ha bakana gaijin desu.'.contains_cjk?
=> false
Run Code Online (Sandbox Code Playgroud)

我怀疑这将归结为查看字符串中的任何字符是否在Unihan CJKV Unicode块中,但我认为值得问一下是否有人知道Ruby中的现有解决方案.

ruby unicode encoding character-encoding cjk

16
推荐指数
2
解决办法
5221
查看次数

如何将日文字符分类为汉字或假名?

鉴于下面的文字,我如何将每个角色分类为假名汉字

谁か确认上记これらのフ

得到这样的东西

? - kanji
? - kana
? - kanji
? - kanji 
? - kanji 
? - kanji 
? - kana 
? - kana
? - kana
? - kana
? - kana
Run Code Online (Sandbox Code Playgroud)

(对不起,如果我做错了.)

java unicode cjk

15
推荐指数
3
解决办法
9980
查看次数

如何在java中使用中文和日文字符作为字符串?

嗨,
我使用的是java语言.在这里我必须使用一些中文,日文字符作为字符串并使用System.out.println()进行打印.

我怎样才能做到这一点?

谢谢

java unicode cjk

15
推荐指数
1
解决办法
5万
查看次数

如何从汉字中提取笔画

我一直在尝试多次创建一种从汉字中提取笔画信息的算法.我尝试了各种方法,但没有一种非常令人满意,可能是因为我对图形算法的了解有限.

基本上,我有以下数据:

  • 中文字符,可以是像素或矢量(黑色)

  • 笔划的整体轮廓,以像素为单位(红色)

  • 整体方向(蓝色箭头).

在此输入图像描述

由此,我试图提取中风.如果必须这样做,根据可用数据,您会使用哪些方法?你能想到任何自动提取中风的方法吗?

algorithm ocr graphics cjk computer-vision

15
推荐指数
1
解决办法
1475
查看次数

我的Android应用程序应默认为简体中文还是繁体中文?

我正在写一个本地化的Android应用程序; 我对如何处理简体中文和繁体中文之间的差异感到困惑.

感谢这个出色的答案,我知道我应该把简体中文values-zh-rCN和繁体中文放在一起values-zh-rTW.

但我应该把东西放进去values-zh,对吧?香港和澳门的人不应该只获得我的默认(英文)字符串.

我的问题是:把传统中国人放进去更好values-zh吗?或者我应该将简体中文设为默认值?(或者我应该省略values-zh目录?)

android localization cjk

15
推荐指数
1
解决办法
4363
查看次数

使用Python和Regex查找字符串中的所有中文文本

今天我需要从一堆字符串中删除中文,并且正在寻找一个简单的Python正则表达式.有什么建议?

python regex cjk

14
推荐指数
2
解决办法
3万
查看次数

防止浏览器将行之间的'\n'转换为空格(对于中文字符)

将换行符转换为空格对于英语是有意义的,例如,以下HTML

<p>
This is
a sentence.
</p>
Run Code Online (Sandbox Code Playgroud)

在浏览器中将换行符转换为空格后,我们得到以下内容:

This is a sentence.
Run Code Online (Sandbox Code Playgroud)

这对英语有好处,但对汉字不好,因为我们不使用空格来分隔中文单词.这是一个例子(中文句子的含义与"这是一个句子"相同):

<p>
??
????
</p>
Run Code Online (Sandbox Code Playgroud)

我在Chrome,Safari和IE上获得了以下结果

?? ????
Run Code Online (Sandbox Code Playgroud)

我想要的是以下,没有额外的空间.

??????
Run Code Online (Sandbox Code Playgroud)

如果当前行的最后一个字符和下一行的第一个字符都是中文字符(我认为更有意义),我不知道为什么浏览器不会忽略换行符.或者他们提供了这种机制但需要特殊处理?

顺便说一句,在Vim中,当使用"J"连接线时,如果2行的最后一个和第一个字符都是中文字符,则不会添加空格.但对于英语,将增加一个空间.所以我猜Vim为此做了一些特别的处理.

更新:

虽然我认为这是浏览器的一个问题,但我必须接受它.因此,目前我会在生成HTML之前预处理我的Markdown文本以加入中文行.以下是我在Ruby中做到这一点,完整的代码也可以用来处理中国标点符号是要点

#encoding: UTF-8

# Requires ruby 1.9.x, and assume using UTF-8 encoding

class String
  # The regular expression trick to match CJK characters comes from
  # http://stackoverflow.com/a/4681577/306935
  def join_chinese
    gsub(/(\p{Han})\n(\p{Han})/m, '\1\2')
  end
end
Run Code Online (Sandbox Code Playgroud)

html browser cjk

14
推荐指数
2
解决办法
2908
查看次数