在给定的ASCII文本文件中匹配CLOSEST文件

Question

在给定的ASCII文本文件中匹配CLOSEST文件

Ank*_*bey 7 algorithm ascii information-retrieval data-structures

问题:

我有大约20个ASCII文本文件,每个文件的大小小于10 ^ 9字节.给出了另一个ASCII文本文件(比如说FOO).程序是战略性地匹配FOO的内容与给定的20个文件,并打印CLOSEST匹配文件的名称.FOO的内容可能只是部分匹配.

由于文件太大,我想知道:

1.如何使用信息检索(因为我对IR不太了解)

2.我应该使用哪种数据结构来存储这些信息

3.实现它的最佳算法是什么.

我知道我问的太多了,但是我真的陷入了这个问题,而且无法找到如何接近.任何帮助都会得到赞赏.谢谢!

Answer 1

Muh*_*min 0

所以我假设一个文件包含一些文本。所以我们可以说每个文件都是一个大字符串。现在制作 20 个向量或数组。遍历文件并将每个单词作为向量中的元素。现在创建一个大小为 20 的向量来存储每个文件的匹配现在也为给定文件创建一个词向量。现在，如果您在任何给定索引处发现这 20 个向量中的任何一个与您给定的向量匹配，则创建一个循环来遍历这些向量。增加匹配存储向量中相应文件的值。最后，匹配存储向量中的最高值将指示具有最佳匹配的文件。

归档时间：	12 年，10 月前
查看次数：	1134 次
最近记录：	10 年，6 月前