我正在寻找一些关于文本文档中使用Unicode字符的统计数据(带有任何标记).谷歌搜索没有结果.
背景:我目前正在开发一种基于有限状态机的文本处理工具.字符的统计数据可能有助于搜索正确的过渡.例如拉丁字符可能是最常用的,因此首先检查它们是否有意义.
有没有人偶然收集或看到这样的统计数据?
(我不专注于特定的语言或语言环境.想像XML解析器那样的通用解析器.)
总结当前的发现和想法:
很抱歉,这不是一个答案,而是一个很好的研究方向。
更新:我编写了一个小型 Hadoop 作业并在 CommonCrawl 段之一上运行它。我已将结果发布在此处的电子表格中。以下是前 50 个字符:
0x000020 14627262
0x000065 7492745 e
0x000061 5144406 a
0x000069 4791953 i
0x00006f 4717551 o
0x000074 4566615 t
0x00006e 4296796 n
0x000072 4293069 r
0x000073 4025542 s
0x00000a 3140215
0x00006c 2841723 l
0x000064 2132449 d
0x000063 2026755 c
0x000075 1927266 u
0x000068 1793540 h
0x00006d 1628606 m
0x00fffd 1579150
0x000067 1279990 g
0x000070 1277983 p
0x000066 997775 f
0x000079 949434 y
0x000062 851830 b
0x00002e 844102 .
0x000030 822410 0
0x0000a0 797309
0x000053 718313 S
0x000076 691534 v
0x000077 682472 w
0x000031 648470 1
0x000041 624279 @
0x00006b 555419 k
0x000032 548220 2
0x00002c 513342 ,
0x00002d 510054 -
0x000043 498244 C
0x000054 495323 T
0x000045 455061 E
0x00004d 426545 M
0x000050 423790 P
0x000049 405276 I
0x000052 393218 R
0x000044 381975 D
0x00004c 365834 L
0x000042 353770 B
0x000033 334689 E
0x00004e 325299 N
0x000029 302497 /
0x000028 301057 (
0x000035 298087 5
0x000046 295148 F
Run Code Online (Sandbox Code Playgroud)
说实话,我不知道这些结果是否具有代表性。正如我所说,我只分析了一个片段。对我来说看起来很合理。人们还可以很容易地发现标记已经被剥离 - 因此该发行版并不直接适合我的 XML 解析器。但它提供了有关首先检查哪些字符范围的宝贵提示。
归档时间: |
|
查看次数: |
1320 次 |
最近记录: |