标签: cjk

以编程方式确定汉字中的笔画数量?

Unicode存储笔划是否计算有关中文,日文或其他基于笔划的字符的信息?

unicode character-encoding cjk

11
推荐指数
1
解决办法
2115
查看次数

如何在PostgreSQL上用中文实现全文搜索?

之前已经问过这个问题:

postgresql全文搜索postgresql - 日语,中文,阿拉伯语

但就我所见,中国人没有答案.我看了一下OpenOffice wiki,它没有中文字典.

编辑:由于我们已成功将PG的内部FTS引擎用于英文文档,因此我们不希望转移到外部索引引擎.基本上,我正在寻找的是中文FTS配置,包括简体中文(普通话)的解析器和词典.

postgresql full-text-search localization cjk

11
推荐指数
1
解决办法
3695
查看次数

什么是日本的空白字符?

我需要拆分一个字符串并提取由空白字符分隔的单词.来源可能是英文或日文.英文空白字符包括制表符和空格,日文文本也使用这些字符.(IIRC,所有广泛使用的日语字符集都是US-ASCII的超集.)

因此,我需要用来分割字符串的字符集包括普通的ASCII空格和制表符.

但是,在日语中,还有另一个空格字符,通常称为"全宽空间".根据我Mac的角色查看器实用程序,这是U + 3000"IDEOGRAPHIC SPACE".这是(通常)当用户在日语输入模式下键入时按空格键时的结果.

我还需要考虑其他角色吗?

我正在处理被告知"用空格分隔条目"的用户提交的文本数据.但是,用户正在使用各种计算机和移动电话操作系统来提交这些文本.我们已经看到用户在输入此数据时可能不知道他们是处于日语输入模式还是英语输入模式.

此外,即使在日语模式下,空间键的行为也会因平台和应用程序而异(例如,Windows 7将插入表意空间,但iOS将插入ASCII空间).

所以我想要的基本上是"视觉上看起来像空格的所有角色的集合,可能是在用户按空格键时生成的,或者是tab键,因为许多用户不知道空格和制表符之间的区别,日语和/或英语".

对这样的问题有任何权威的答案吗?

unicode whitespace text tokenize cjk

11
推荐指数
1
解决办法
9054
查看次数

R中的UTF-8文件输出

我在Windows 7 64位上使用R 2.15.0.我想将unicode(CJK)文本输出到文件.

以下代码显示了发送到UTF-8文件连接上的Unicode字符如何不能正常工作(I):

rty <- file("test.txt",encoding="UTF-8")
write("?", file=rty)
close(rty)
rty <- file("test.txt",encoding="UTF-8")
scan(rty,what=character())
close(rty)
Run Code Online (Sandbox Code Playgroud)

如扫描输出所示:

Read 1 item 
[1] "<U+5728>"
Run Code Online (Sandbox Code Playgroud)

该文件不是用UTF字符本身编写的,而是某种符合ANSI标准的回退.我可以让它第一次正常工作(即使用其中包含"在"的文本文件),或者我可以使用一些额外的魔法将输出转换为Unicode,并使用正确的字符替换代码字符串吗?

谢谢.

[更多信息:相同的代码在Cygwin,R 2.14.2中正常运行,而Win7上的2.14.2也被破坏.这是在我的某个地方吗?]

unicode r cjk

11
推荐指数
3
解决办法
1万
查看次数

如何用java保存汉字到文件?

我使用以下代码将中文字符保存到.txt文件中,但是当我用Wordpad打开它时,我无法读取它.

StringBuffer Shanghai_StrBuf = new StringBuffer("\u4E0A\u6D77");
boolean Append = true;

FileOutputStream fos;
fos = new FileOutputStream(FileName, Append);
for (int i = 0;i < Shanghai_StrBuf.length(); i++) {
    fos.write(Shanghai_StrBuf.charAt(i));
}
fos.close();
Run Code Online (Sandbox Code Playgroud)

我能做什么 ?我知道如果我将中文字符剪切并粘贴到Wordpad中,我可以将其保存到.txt文件中.我如何用Java做到这一点?

java file character-encoding cjk

10
推荐指数
2
解决办法
2万
查看次数

如何确定角色是否是汉字

如何确定角色是否是使用红宝石的中文角色?

ruby unicode encoding cjk character-properties

10
推荐指数
2
解决办法
4411
查看次数

sort()为日语

如果我将当前的语言环境设置为日语,我该如何设置它以使日语字符始终具有比非日语字符更高的优先级.例如,现在英文字符将始终出现在片假名字符之前.我该如何扭转这种影响呢?

很抱歉不太清楚.正如你在这里看到的那样.

最终结果有Java,NVIDIA和Windowsファイアウォール.排在日本人物之前的前三名.是否有可能在最后?

php unicode localization collation cjk

10
推荐指数
1
解决办法
1359
查看次数

标记化和模式匹配如何在中文中起作用.

这个问题涉及计算和中文知识.我有中文查询,我有一个单独的中文短语列表我需要能够找到这些查询中的哪些有任何这些短语.

在英语中,这是一项非常简单的任务.我根本不懂中文,它的语义,语法规则等等.如果这个论坛中有人也懂中文,可以帮助我一些基本的理解,以及如何为中文做出模式匹配.

我有一个基本的看法,在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?).那么,是否存在关于多个单词如何在它们之间组合以作为一个单元脱颖而出的规则.这是令人困惑的,因为中文写作中有空格,即使没有空格的单元也有多个单词.

从计算的角度来看解释中文的任何链接,模式匹配等都是非常有用的.

java locale utf-8 internationalization cjk

10
推荐指数
1
解决办法
1701
查看次数

Django:如何为应用程序添加中文支持

我正在尝试在我的Django应用程序中添加一个中文语言,我真的很难.我花了半天尝试不同的方法,没有成功.

我的应用程序支持几种语言,这是settings.py文件的一部分:

TIME_ZONE = 'Europe/Dublin'
LANGUAGE_CODE = 'en'

LOCALES = (
    #English
    ('en', u'English'),

    #Norwegian
    ('no', u'Norsk'),

    #Finish
    ('fi', u'Suomi'),

    #Simplified Chinese
    ('zh-CN', u'????'),

    #Traditional Chinese
    ('zh-TW', u'????'),

    #Japanese
    ('ja', u'???'),
)
Run Code Online (Sandbox Code Playgroud)

目前,所有(但中文)语言都能完美运作.这是locale目录的内容:

$ ls locale/
en
fi
ja
no
zh_CN
zh_TW
Run Code Online (Sandbox Code Playgroud)

在每个目录中,我都有LC_MESSAGES目录,其中包含*.mo和*.po文件.*.po文件由Python编写的脚本创建,它将*.ODS转换为文本文件.*.mo文件由python manage.py compilemessages命令创建.

用户可以从我的应用程序的"首选项"部分中的正确表单中选择语言.

Django不加载中文翻译.那就是问题所在.简化和传统都不起作用.我在settings.py和locale目录中尝试了不同的语言和区域代码变体:zh-CN,zh-cn,zh_CN,zh_cn.没有成功.

也许我犯了一个简单的错误?我添加了波兰语仅供测试,一切都很顺利.基本上我做了同样的事情.我已将('pl',u'Polish')元组添加到settings.py和带有*.po和*.mo以及LC_MESSAGES目录的"locale/pl"...

你知道什么可能是错的吗?

django translation localization internationalization cjk

10
推荐指数
2
解决办法
1万
查看次数

Flutter从服务器解码错误中取出日文字符

我正在用Flutter构建一个移动应用程序.

我需要json从服务器获取包含日文文本的文件.返回的一部分json是:

{
     "id": "egsPu39L5bLhx3m21t1n",  
     "userId": "MCetEAeZviyYn5IMYjnp",  
     "userName": "? ??",  
     "content": "????????????2018/05/06?????????????"
}
Run Code Online (Sandbox Code Playgroud)

在postman或chrome上尝试相同的请求会得到预期的结果(日语字符在输出中正确呈现).

但是当使用Dart通过以下代码片段获取数据时:

  import 'dart:convert';
  import 'package:http/http.dart' as http;

  //irrelevant parts have been omitted    
  final response = await http.get('SOME URL',headers: {'Content-Type': 'application/json'});
  final List<dynamic> responseJson = json.decode(response.body)
  print(responseJson);
Run Code Online (Sandbox Code Playgroud)

printlogcat 中的语句结果是

{
     id: egsPu39L5bLhx3m21t1n, 
     userId: MCetEAeZviyYn5IMYjnp, 
     userName: å·½ è£äº®, 
     content: ãã«ãã©ã½ã³å®èµ°ã«å¯¾ãã¦2018/05/06ã®ãµãããããè¡ãã¾ããï¼
}
Run Code Online (Sandbox Code Playgroud)

请注意,只有日文字符(content键的值)变为乱码,其他非日语值仍然正确显示.

两个通知是:

  1. 如果我尝试在我的应用程序中显示此日文文本,Text()则会呈现相同的乱码,因此这不是Android Studio的logcat的错误.
  2. 如果我使用Text('put some Japanese text here directly')(例如Text('??'):),Flutter会正确显示它,因此不是Text小部件会弄乱日文字符.

rest cjk dart flutter

10
推荐指数
2
解决办法
3231
查看次数