相关疑难解决方法(0)

解析1 TB的文本并有效地计算每个单词的出现次数

最近我遇到了一个面试问题,用任何语言创建一个算法,应该做到以下几点

阅读1 TB的内容
计算该内容中每个重新识别单词的计数
列出前10个最常出现的单词

你能告诉我为这个创建算法的最佳方法吗？

编辑:

好吧,让我们说内容是英文的.我们如何找到该内容中最常出现的前10个单词？我的另一个疑问是,如果他们故意提供唯一数据,那么我们的缓冲区将在堆大小溢出时到期.我们也需要处理它.

54
推荐指数

5
解决办法

1万
查看次数

标签统计

c# ×1