phi*_*reo 19 php localization internationalization cjk
如果网站使用简体中文翻译进行本地化/国际化...
Jas*_*rue 23
简答:不,不可靠+高品质.除非市场对您不重要,否则我不会推荐使用自动化工具,您可能会冒某些令人尴尬的公开尴尬风险.您可能会发现一些本地化公司是幸福开始与质量简化中国翻译和使其适应传统的,但你也可能会发现许多公司更愿意先从英语源.
更长的答案:在某些情况下,只有字形不同,并且它们具有不同的unicode代码点.但是,中华人民共和国与台湾/香港之间也存在一些惯用语和词汇差异,如果不处理,你的质量将受到影响.技术术语可能更成问题或更少,这取决于术语变得普遍使用的时代.其中一些问题可能会被自动化工具捕获,但不是全部.当然,如果您采用自动转换的方式,请确保您从每个目标市场的QA团队获得回报.
此外,还存在社会政治问题.例如,您可以在台湾使用像"中华民国"这样的术语,但如果它出现在您的简体中文版本(有时是您的英文版本),这将使中国政府感到气馁; 如果您在中国有实际的子公司或合伙人,则可能仅根据颠覆性术语逮捕工作人员.(这不是中国独有的;巴基斯坦/印度和土耳其也有类似的问题).你可以将"台湾"称为"国家",从而遇到类似的麻烦.
spa*_*unt 10
作为一名土生土长的香港人,我同意@JasonTrue:不要这样做.您可能会在台湾和香港冒险并冒犯您的潜在用户.
但是,如果你仍然坚持这样做,那么看看维基百科是如何做到的 ; 这是一个实现(注释许可证).
是否有可能以高质量的方式可靠地自动将文本转换为繁体中文?
其他答案都集中在困难上,但这些都被夸大了。一件事是角色的很大一部分完全相同。第二件事是“简体”形式正是:繁体字的简化形式。这意味着繁体字和简体字之间大多是一对一的关系。
如果是这样,它是非常高质量还是只是翻译人员调整的一个很好的起点?
一些事情需要调整。
是否有开源工具(最好是 PHP)来进行这种转换?
我不知道,尽管您可能想查看 google translate api?
一种方式与另一种方式的转换是否更好(简化 - > 传统,反之亦然)?
一些字符在简化字母表中失去了区别。例如,?(面粉) 被简化为与?(面部,侧面) 相同的字符。出于这个原因,传统-> 简化会稍微准确一些。
我还要指出,繁体字不仅仅在台湾使用(它们可以在香港找到,有时甚至在大陆也可以找到)
我能够找到这个和这个。但是需要创建一个帐户才能下载。我自己从未使用过该网站,所以我不能保证它。
我对任何形式的中文一无所知,但通过查看维基百科页面中的示例,我倾向于认为自动转换是可能的,因为许多短语似乎使用相同数量的字符,甚至某些相同的字符。
\n我使用多字节函数进行了快速测试ord(),但我看不到任何允许在不使用(巨大?)查找转换表的情况下进行自动转换的模式。
Traditional Chinese \xe6\xbc\xa2\xe5\xad\x97\nSimplified Chinese \xe6\xb1\x89\xe5\xad\x97\n\nfunction mb_ord($string)\n{\n if (is_array($result = unpack(\'N\', iconv(\'UTF-8\', \'UCS-4BE\', $string))) === true)\n {\n return $result[1];\n }\n\n return false;\n}\n\nvar_dump(mb_ord(\'\xe6\xbc\xa2\'), mb_ord(\'\xe5\xad\x97\')); // 28450, 23383\nvar_dump(mb_ord(\'\xe6\xb1\x89\'), mb_ord(\'\xe5\xad\x97\')); // 27721, 23383\nRun Code Online (Sandbox Code Playgroud)\n这可能是开始构建 LUTT 的好地方:
\n我得到了另一个链接的答案,它似乎(在某种程度上)与我的推理一致:
\n\n\n有几个国家\n中文是主要书面语言。\n它们之间的主要区别是\n是否使用简体字\n繁体字,\ n但也存在\n较小的地区差异(\n词汇等)。
\n