我正在寻找一些关于文本文档中使用Unicode字符的统计数据(带有任何标记).谷歌搜索没有结果.
背景:我目前正在开发一种基于有限状态机的文本处理工具.字符的统计数据可能有助于搜索正确的过渡.例如拉丁字符可能是最常用的,因此首先检查它们是否有意义.
有没有人偶然收集或看到这样的统计数据?
(我不专注于特定的语言或语言环境.想像XML解析器那样的通用解析器.)
unicode
unicode ×1