标签: cjk

SQL Server数据库字段用于处理韩文和中文字符

是否可以在SQLServer中有一个可以存储中文,韩文和欧洲字符的字段？我的汉字变成了?????

数据类型也是NVARCHAR.

database sql-server internationalization cjk

Ale*_*dro

2012 05-05

17
推荐指数

1
解决办法

3万
查看次数

将带编号的拼音转换为带有音标的拼音

是否有任何脚本,库,或使用程序Python或BASH工具(例如awk,perl,sed),它可以正确地转换编号的拼音(如dian4 nao3)为UTF-8带声调的拼音(如厂甸nǎo)？

我找到了以下示例,但它们需要PHP或#C:

我也发现了各种在线工具,但它们无法处理大量的转换.

python bash cjk

Vil*_*age

2017 05-23

17
推荐指数

4
解决办法

2688
查看次数

在单词之间没有空格的语言中断(例如亚洲语)？

我想用日文和中文文本以及任何其他语言进行MySQL全文搜索工作.问题是这些语言和其他语言通常不会在单词之间留有空格.如果必须键入与文本中相同的句子,则搜索无用.

我不能只在每个角色之间放一个空格,因为英语也必须起作用.我想用PHP或MySQL解决这个问题.

我可以配置MySQL来识别应该是自己的索引单元的字符吗？是否有一个PHP模块可以识别这些字符,所以我可以在它们周围为索引抛出空格？

更新

部分解决方案:

$string_with_spaces =
  preg_replace( "/[".json_decode('"\u4e00"')."-".json_decode('"\uface"')."]/",
  " $0 ", $string_without_spaces );

Run Code Online (Sandbox Code Playgroud)

这使得一个角色类至少出现在我需要特别处理的一些角色中.我应该提一下,搞定索引文本是可以接受的.

有没有人知道我需要插入空格的所有字符范围？

此外,必须有一种更好的,可移植的方式来表示PHP中的这些字符？Literal Unicode中的源代码并不理想; 我不会认出所有人物; 它们可能无法在我必须使用的所有机器上渲染.

php full-text-search tokenize cjk wordbreaker

Joe*_*way

2010 10-15

16
推荐指数

1
解决办法

4691
查看次数

如何在Ruby中检测字符串中的某些Unicode字符？

给定Ruby 1.8.7中的字符串(没有支持带有\ p {}的Unicode属性的真棒Oniguruma正则表达式引擎),我希望能够确定该字符串是否包含一个或多个中文,日文或韩文字符; 即

class String
  def contains_cjk?
    ...
  end
end

>> '???'.contains_cjk?
=> true
>> '?? ????'.contains_cjk?
=> true
>> '????????'.contains_cjk?
=> true
>> 'Watashi ha bakana gaijin desu.'.contains_cjk?
=> false

Run Code Online (Sandbox Code Playgroud)

我怀疑这将归结为查看字符串中的任何字符是否在Unihan CJKV Unicode块中,但我认为值得问一下是否有人知道Ruby中的现有解决方案.

ruby unicode encoding character-encoding cjk

Jos*_*ver

2017 08-04

16
推荐指数

2
解决办法

5221
查看次数

如何将日文字符分类为汉字或假名？

鉴于下面的文字,我如何将每个角色分类为假名或汉字？

谁か确认上记これらのフ

得到这样的东西

? - kanji
? - kana
? - kanji
? - kanji 
? - kanji 
? - kanji 
? - kana 
? - kana
? - kana
? - kana
? - kana

Run Code Online (Sandbox Code Playgroud)

(对不起,如果我做错了.)

java unicode cjk

ale*_*2k8

2013 11-05

15
推荐指数

3
解决办法

9980
查看次数

如何在java中使用中文和日文字符作为字符串？

嗨,
我使用的是java语言.在这里我必须使用一些中文,日文字符作为字符串并使用System.out.println()进行打印.

我怎样才能做到这一点？

谢谢

java unicode cjk

sja*_*ain

2014 09-09

15
推荐指数

1
解决办法

5万
查看次数

如何从汉字中提取笔画

我一直在尝试多次创建一种从汉字中提取笔画信息的算法.我尝试了各种方法,但没有一种非常令人满意,可能是因为我对图形算法的了解有限.

基本上,我有以下数据:

中文字符,可以是像素或矢量(黑色)
笔划的整体轮廓,以像素为单位(红色)
整体方向(蓝色箭头).

在此输入图像描述

由此,我试图提取中风.如果必须这样做,根据可用数据,您会使用哪些方法？你能想到任何自动提取中风的方法吗？

algorithm ocr graphics cjk computer-vision

lau*_*ent

2012 05-21

15
推荐指数

1
解决办法

1475
查看次数

我的Android应用程序应默认为简体中文还是繁体中文？

我正在写一个本地化的Android应用程序; 我对如何处理简体中文和繁体中文之间的差异感到困惑.

感谢这个出色的答案,我知道我应该把简体中文values-zh-rCN和繁体中文放在一起values-zh-rTW.

但我应该把东西放进去values-zh,对吧？香港和澳门的人不应该只获得我的默认(英文)字符串.

我的问题是:把传统中国人放进去更好values-zh吗？或者我应该将简体中文设为默认值？(或者我应该省略values-zh目录？)

android localization cjk

Dan*_*ich

2017 05-23

15
推荐指数

1
解决办法

4363
查看次数

使用Python和Regex查找字符串中的所有中文文本

今天我需要从一堆字符串中删除中文,并且正在寻找一个简单的Python正则表达式.有什么建议？

python regex cjk

Pra*_*ogg

2012 05-05

14
推荐指数

2
解决办法

3万
查看次数

防止浏览器将行之间的'\n'转换为空格(对于中文字符)

将换行符转换为空格对于英语是有意义的,例如,以下HTML

<p>
This is
a sentence.
</p>

Run Code Online (Sandbox Code Playgroud)

在浏览器中将换行符转换为空格后,我们得到以下内容:

This is a sentence.

Run Code Online (Sandbox Code Playgroud)

这对英语有好处,但对汉字不好,因为我们不使用空格来分隔中文单词.这是一个例子(中文句子的含义与"这是一个句子"相同):

<p>
??
????
</p>

Run Code Online (Sandbox Code Playgroud)

我在Chrome,Safari和IE上获得了以下结果

?? ????

Run Code Online (Sandbox Code Playgroud)

我想要的是以下,没有额外的空间.

??????

Run Code Online (Sandbox Code Playgroud)

如果当前行的最后一个字符和下一行的第一个字符都是中文字符(我认为更有意义),我不知道为什么浏览器不会忽略换行符.或者他们提供了这种机制但需要特殊处理？

顺便说一句,在Vim中,当使用"J"连接线时,如果2行的最后一个和第一个字符都是中文字符,则不会添加空格.但对于英语,将增加一个空间.所以我猜Vim为此做了一些特别的处理.

更新:

虽然我认为这是浏览器的一个问题,但我必须接受它.因此,目前我会在生成HTML之前预处理我的Markdown文本以加入中文行.以下是我在Ruby中做到这一点,完整的代码也可以用来处理中国标点符号是要点

#encoding: UTF-8

# Requires ruby 1.9.x, and assume using UTF-8 encoding

class String
  # The regular expression trick to match CJK characters comes from
  # http://stackoverflow.com/a/4681577/306935
  def join_chinese
    gsub(/(\p{Han})\n(\p{Han})/m, '\1\2')
  end
end

Run Code Online (Sandbox Code Playgroud)

html browser cjk

cyf*_*cyf

2012 05-09

14
推荐指数

2
解决办法

2908
查看次数