Ank*_*bey 7 algorithm ascii information-retrieval data-structures
问题:
我有大约20个ASCII文本文件,每个文件的大小小于10 ^ 9字节.给出了另一个ASCII文本文件(比如说FOO).程序是战略性地匹配FOO的内容与给定的20个文件,并打印CLOSEST匹配文件的名称.FOO的内容可能只是部分匹配.
由于文件太大,我想知道:
1.如何使用信息检索(因为我对IR不太了解)
2.我应该使用哪种数据结构来存储这些信息
3.实现它的最佳算法是什么.
我知道我问的太多了,但是我真的陷入了这个问题,而且无法找到如何接近.任何帮助都会得到赞赏.谢谢!
所以我假设一个文件包含一些文本。所以我们可以说每个文件都是一个大字符串。现在制作 20 个向量或数组。遍历文件并将每个单词作为向量中的元素。现在创建一个大小为 20 的向量来存储每个文件的匹配现在也为给定文件创建一个词向量。现在,如果您在任何给定索引处发现这 20 个向量中的任何一个与您给定的向量匹配,则创建一个循环来遍历这些向量。增加匹配存储向量中相应文件的值。最后,匹配存储向量中的最高值将指示具有最佳匹配的文件。