Unicode字符使用统计信息

lex*_*ore 9 unicode

我正在寻找一些关于文本文档中使用Unicode字符的统计数据(带有任何标记).谷歌搜索没有结果.

背景:我目前正在开发一种基于有限状态机的文本处理工具.字符的统计数据可能有助于搜索正确的过渡.例如拉丁字符可能是最常用的,因此首先检查它们是否有意义.

有没有人偶然收集或看到这样的统计数据?

(我不专注于特定的语言或语言环境.想像XML解析器那样的通用解析器.)

lex*_*ore 6

总结当前的发现和想法:

很抱歉,这不是一个答案,而是一个很好的研究方向。

更新:我编写了一个小型 Hadoop 作业并在 CommonCrawl 段之一上运行它。我已将结果发布在此处的电子表格中。以下是前 50 个字符:

0x000020    14627262     
0x000065    7492745 e
0x000061    5144406 a
0x000069    4791953 i
0x00006f    4717551 o
0x000074    4566615 t
0x00006e    4296796 n
0x000072    4293069 r
0x000073    4025542 s
0x00000a    3140215 
0x00006c    2841723 l
0x000064    2132449 d
0x000063    2026755 c
0x000075    1927266 u
0x000068    1793540 h
0x00006d    1628606 m
0x00fffd    1579150 
0x000067    1279990 g
0x000070    1277983 p
0x000066    997775  f
0x000079    949434  y
0x000062    851830  b
0x00002e    844102  .
0x000030    822410  0
0x0000a0    797309  
0x000053    718313  S
0x000076    691534  v
0x000077    682472  w
0x000031    648470  1
0x000041    624279  @
0x00006b    555419  k
0x000032    548220  2
0x00002c    513342  ,
0x00002d    510054  -
0x000043    498244  C
0x000054    495323  T
0x000045    455061  E
0x00004d    426545  M
0x000050    423790  P
0x000049    405276  I
0x000052    393218  R
0x000044    381975  D
0x00004c    365834  L
0x000042    353770  B
0x000033    334689  E
0x00004e    325299  N
0x000029    302497  /
0x000028    301057  (
0x000035    298087  5
0x000046    295148  F
Run Code Online (Sandbox Code Playgroud)

说实话,我不知道这些结果是否具有代表性。正如我所说,我只分析了一个片段。对我来说看起来很合理。人们还可以很容易地发现标记已经被剥离 - 因此该发行版并不直接适合我的 XML 解析器。但它提供了有关首先检查哪些字符范围的宝贵提示。