日语的自动换行算法

Bre*_*ton 7 algorithm unicode internationalization cjk word-wrap

在我最近创建的一个Web应用程序中,当我们的一个用户决定用它来创建完全用日语创建的东西时,我感到非常惊喜.然而,文字被奇怪而笨拙地包裹着.显然浏览器不能很好地处理包装日文文本,可能是因为它包含很少的空格,因为每个字符构成一个完整的单词.然而,这并不是一个真正安全的假设,因为有些单词是由几个字符构成的,将某些字符组分成不同的行是不安全的.

谷歌搜索并没有真正帮助我更好地理解这个问题.在我看来,人们需要一本坚不可摧的模式字典,并假设其他地方都可以安全破解.但是我担心我对日语知之甚少,所以我从他的一些搜索中理解的所有单词都非常复杂.

你会如何解决这个问题?您是否知道已经存在的任何库或算法以令人满意的方式处理此问题?

Mic*_*rdt 12

日语自动换行规则被称为kinsoku shori,并且非常简单.他们实际上主要关注的是标点字符,并且不会试图保持单词不被破坏.

我刚刚用一本日本小说进行了检查,实际上,在音节假名字母和由多个中文表意文字组成的单词都包含在中间词而不受惩罚.