用于文本规范化的Java库

val*_*zka 10 java string text normalization

我正在寻找允许文本"标准化"的java库.类似于标准的Normalizer,但更宽(类似于utf8proc LUMP).

它应该将所有类型的特殊字符替换为ASCII等效字符(如果可能的话).代码为32的所有空间变体,所有变量的缺陷(长,短,薄等)到代码45等等.

Ste*_*mis 2

您应该查看CLDR中的拉丁语-ASCII转换。它将在ICU 4.6中