小编fun*_*yme的帖子

倒排索引搜索算法

考虑一下人们在谷歌中搜索了100亿个单词.对应于每个单词,您都有所有文档ID的排序列表.该列表如下所示:

[Word 1]->[doc_i1,doc_j1,.....]
[Word 2]->[doc_i2,doc_j2,.....]
...
...
...
[Word N]->[doc_in,doc_jn,.....]
Run Code Online (Sandbox Code Playgroud)

我正在寻找一种算法来找到100个罕见的单词对.罕见的单词对是在一个文档中一起出现的一对单词(不一定是连续的).

如果可能的话,我正在寻找比O(n ^ 2)更好的东西.

sorting algorithm information-retrieval set inverted-index

5
推荐指数
1
解决办法
2123
查看次数