将大字符串中的子字符串与大量关键字列表匹配的最佳方法是什么？

Question

想象一下,你有数百万条包含平均2000个单词(每个)的文本的记录,而且你还有另一个包含大约100000个项目的列表.

例如:在关键词列表中你有一个像"奥巴马总统"这样的项目,在其中一个文本记录中你有这样的事情:".....总统奥巴马......",所以我想找到这个关键词在文中用一些像这样的东西替换它:"..... {奥巴马总统} ...."为了突出显示文本中的关键字,关键字列表包含多名词的例子.

在拥有数百万条文本记录的庞大列表中,最快的方法是什么？

笔记:

Answer 1

假设：大多数关键词是单词，但也有一些多词关键词。

我的建议。

根据第一个单词对关键字进行哈希处理。因此“President”、“President Obama”和“President Clinton”都将哈希为相同的值。

然后通过计算哈希值逐字搜索。在哈希匹配上实现逻辑来检查多字关键字是否匹配。

计算哈希值将是该解决方案中最昂贵的操作，并且应该与输入字符串的长度呈线性关系。