相关疑难解决方法(0)

字符编码检测算法

我正在寻找一种方法来检测文档中的字符集.我一直在这里阅读Mozilla字符集检测实现:

通用字符集检测

我还发现了一个名为jCharDet的Java实现:

JCharDet

这两者都是基于使用一组静态数据进行的研究.我想知道的是,是否有人成功使用过任何其他实现,如果有的话,是什么?你有自己的方法吗?如果是的话,你用来检测字符集的算法是什么?

任何帮助,将不胜感激.我不是在寻找通过谷歌的现有方法列表,也不是在寻找Joel Spolsky文章的链接 - 只是为了澄清:)

更新:我对此进行了大量研究,最终找到了一个名为cpdetector的框架,该框架使用可插入的方法进行字符检测,请参阅:

CPDetector

这提供了BOM,chardet(Mozilla方法)和ASCII检测插件.编写自己的代码也很容易.还有另一个框架,它提供了更好的字符检测,Mozilla方法/ jchardet等......

ICU4J

为cpdetector编写自己的插件非常容易,它使用这个框架来提供更准确的字符编码检测算法.它比Mozilla方法更好用.

java character-encoding

44
推荐指数
2
解决办法
3万
查看次数

Unicode字符使用统计信息

我正在寻找一些关于文本文档中使用Unicode字符的统计数据(带有任何标记).谷歌搜索没有结果.

背景:我目前正在开发一种基于有限状态机的文本处理工具.字符的统计数据可能有助于搜索正确的过渡.例如拉丁字符可能是最常用的,因此首先检查它们是否有意义.

有没有人偶然收集或看到这样的统计数据?

(我不专注于特定的语言或语言环境.想像XML解析器那样的通用解析器.)

unicode

9
推荐指数
1
解决办法
1320
查看次数

标签 统计

character-encoding ×1

java ×1

unicode ×1