如何在不区分大小写的明文文件中计算唯一术语？

Question

这可以是任何高级语言,可能在典型的类Unix系统上可用(Python,Perl,awk,标准unix utils {sort,uniq}等).希望它能够快速报告2MB文本文件的唯一术语总数.

我只需要这个来快速进行健全性检查,因此不需要精心设计.

记住,不区分大小写.

非常感谢你们.

附注:如果您使用Python,请不要使用仅限版本3的代码.我运行它的系统只有2.4.4.

Answer 1

在Perl中:

my %words; 
while (<>) { 
    map { $words{lc $_} = 1 } split /\s/); 
} 
print scalar keys %words, "\n";

Answer 2

使用bash/UNIX命令:

sed -e 's/[[:space:]]\+/\n/g' $FILE | sort -fu | wc -l