构建给定文本中最常用单词的ASCII图表

Question

构建给定文本中最常用单词的ASCII图表

Chr*_*heD 156 language-agnostic code-golf

挑战:

构建给定文本中最常用单词的ASCII图表.

规则:

只接受a-z和A-Z(字母字符)作为单词的一部分.
忽略套管(She== she为了我们的目的).
忽略以下的话(非常苛刻,我知道): the, and, of, to, a, i, it, in, or, is
澄清:考虑don't:这将被视为在范围2不同"单词" a-z和A-Z:(don和t).
可选(现在正式更改规范为时已晚)您可以选择删除所有单字母"单词"(这可能会缩短忽略列表).

解析给定的text(读取通过命令行参数指定的文件或管道输入;假设us-ascii)并构建word frequency chart具有以下特征的a:

显示22个最常见单词的图表(另请参见下面的示例)(按降序频率排序).
条形width表示单词的出现次数(频率)(按比例).附加一个空格并打印单词.
确保这些条形(加上空格 - 单词空格)始终适合:bar+ [space]+ word+ [space]应始终<= 80字符(确保考虑可能不同的条形和字长:例如:第二个最常见的单词可能要长得多)第一个虽然频率差别不大).在这些约束条件下最大化条宽,并适当缩放条(根据它们所代表的频率).

一个例子:

这个例子的文本可以在这里找到(爱丽丝梦游仙境,刘易斯卡罗尔).

此特定文本将产生以下图表:

 _________________________________________________________________________
|_________________________________________________________________________| she 
|_______________________________________________________________| you 
|____________________________________________________________| said 
|____________________________________________________| alice 
|______________________________________________| was 
|__________________________________________| that 
|___________________________________| as 
|_______________________________| her 
|____________________________| with 
|____________________________| at 
|___________________________| s 
|___________________________| t 
|_________________________| on 
|_________________________| all 
|______________________| this 
|______________________| for 
|______________________| had 
|_____________________| but 
|____________________| be 
|____________________| not 
|___________________| they 
|__________________| so

供您参考:这些是以上图表构建的频率:

[('she', 553), ('you', 481), ('said', 462), ('alice', 403), ('was', 358), ('that
', 330), ('as', 274), ('her', 248), ('with', 227), ('at', 227), ('s', 219), ('t'
, 218), ('on', 204), ('all', 200), ('this', 181), ('for', 179), ('had', 178), ('
but', 175), ('be', 167), ('not', 166), ('they', 155), ('so', 152)]

第二个例子(检查你是否实现了完整的规范): 用以下内容替换you链接的Alice in Wonderland文件中的每个出现superlongstringstring:

 ________________________________________________________________
|________________________________________________________________| she 
|_______________________________________________________| superlongstringstring 
|_____________________________________________________| said 
|______________________________________________| alice 
|________________________________________| was 
|_____________________________________| that 
|______________________________| as 
|___________________________| her 
|_________________________| with 
|_________________________| at 
|________________________| s 
|________________________| t 
|______________________| on 
|_____________________| all 
|___________________| this 
|___________________| for 
|___________________| had 
|__________________| but 
|_________________| be 
|_________________| not 
|________________| they 
|________________| so

获胜者,冠军:

最短的解决方案(按字符数,每种语言).玩得开心!

编辑:表总结了迄今为止的结果(2012-02-15)(最初由用户Nas Banov添加):

Language          Relaxed  Strict
=========         =======  ======
GolfScript          130     143
Perl                        185
Windows PowerShell  148     199
Mathematica                 199
Ruby                185     205
Unix Toolchain      194     228
Python              183     243
Clojure                     282
Scala                       311
Haskell                     333
Awk                         336
R                   298
Javascript          304     354
Groovy              321
Matlab                      404
C#                          422
Smalltalk           386
PHP                 450
F#                          452
TSQL                483     507

数字代表特定语言中最短解的长度."严格"是指完全实现规范的解决方案(绘制|____|条形图,用____线条关闭顶部的第一个条形图,说明高频率长字的可能性等)."放松"意味着采取一些自由来缩短解决方案.

仅包括短于500个字符的解决方案.语言列表按"严格"解决方案的长度排序.'Unix Toolchain'用于表示使用传统*nix shell 以及混合工具(如grep,tr,sort,uniq,head,perl,awk)的各种解决方案.

Answer 1

Joe*_*e Z 123

LabVIEW 51节点,5个结构,10个图表

教大象踢踏舞从来都不是很好.我会啊,跳过字符数.

该程序从左向右流动:

我见过最好的代码高尔夫答案.+1在盒子外面思考! (19认同)
这是不值得的 (10认同)
LabVIEW对其硬件控制和测量领域非常满意,但对于字符串操作来说真的非常糟糕. (4认同)
还没有3D？......:D (2认同)

Answer 2

Ven*_*ero 42

Ruby 1.9,185个字符

(严重基于其他Ruby解决方案)

w=($<.read.downcase.scan(/[a-z]+/)-%w{the and of to a i it in or is}).group_by{|x|x}.map{|x,y|[-y.size,x]}.sort[0,22]
k,l=w[0]
puts [?\s+?_*m=76-l.size,w.map{|f,x|?|+?_*(f*m/k)+"| "+x}]

归档时间：	15 年，3 月前
查看次数：	33659 次
最近记录：	10 年，11 月前

构建给定文本中最常用单词的ASCII图表

挑战:

LabVIEW 51节点,5个结构,10个图表

Ruby 1.9,185个字符

GolfScript,177 175 173 167 164 163 144 131 130字符

206

shell,grep,tr,grep,sort,uniq,sort,head,perl

基于Transact SQL set的解决方案(SQL Server 2005)1063 892 873 853 827 820 783 683 647 644 630个字符

Ruby 207 213 211 210 207 203 201 200字符

Mathematica(297 284 248 244 242 199字符)纯功能

和Zipf的法律测试

Zipf's Law Testing

编辑6>(242个字符)

编辑7→199个字符

C# - 510 451 436 446 434 426 422个字符(缩小)

Perl,237 229 209字符

Windows PowerShell,199个字符

红宝石,215,216,218,221,224,236,237个字符

Python 2.x,自由主义方法= 227 183个字符

胡言乱语

Python 2.x,punctilious approach = 277 243个字符

Haskell - 366 351 344 337 333个字符

JavaScript 1.8(SpiderMonkey) - 354

JavaScript(Rhino) - 405 395 387 377 368 343 304个字符

perl,205 191 189个字符/ 205个字符(完全实现)

Python 3.1 - 245 229个字符

PHP CLI版本(450个字符)

Perl:203 202 201 198 195 208 203/231字符

F#,452个字符

Python 2.6,347字符

Gawk - 336(原为507)个字符

*sh(+ curl),部分解决方案

常见的LISP,670个字符

C(828)

Perl,185 char

Java - 886 865 756 744 742 744 752 742 714 680字符