快速文本搜索日志

Rea*_*eal 8 algorithm search full-text-search scalability

这是我遇到的问题,我有一套可以快速增长的日志.它们每天都被分成单独的文件,文件可以很容易地增长到一个大小的演出.为了帮助减小尺寸,超过30天左右的条目将被清除.

问题是我想在这些文件中搜索某个字符串.现在,Boyer-Moore搜索速度慢得令人难以置信.我知道像dtSearch这样的应用程序可以使用索引提供非常快速的搜索,但我不确定如何在不占用日志占用空间的两倍的情况下实现它.

有没有我可以查看的资源可以提供帮助?我真的在寻找一种标准算法,它将解释我应该如何构建索引并使用它来搜索.

编辑:
Grep将无法正常工作,因为此搜索需要集成到跨平台应用程序中.我无法摆动包括任何外部程序.

它的工作方式是有一个带有日志浏览器的Web前端.这与自定义C++ Web服务器后端进行了对话.此服务器需要在合理的时间内搜索日志.目前搜索几个日志需要很长时间.

编辑2:其中一些建议很好,但我必须重申,我无法整合另一个应用程序,这是合同的一部分.但是,为了回答一些问题,日志中的数据不同于接收到的医疗保健特定格式的消息或与这些格式相关的消息.我希望依赖索引,因为虽然重建索引可能需要一分钟,但搜索目前需要很长时间(我已经看到它需要2.5分钟).此外,在记录之前,很多数据都被丢弃了.除非启用某些调试日志记录选项,否则将忽略一半以上的日志消息.

搜索基本上是这样的:Web表单上的用户会看到最新消息的列表(在滚动时从磁盘流式传输,yay用于ajax),通常,他们希望搜索包含某些信息的消息它,可能是患者ID,或者他们发送的一些字符串,因此他们可以将字符串输入搜索.搜索以异步方式发送,并且自定义Web服务器一次性线性搜索1MB的日志以获得某些结果.当日志变大时,此过程可能需要很长时间.而这正是我想要优化的.

cha*_*log 5

grep对于我来说通常很适合使用大日志(有时是12G +).您也可以在这里找到适用于Windows的版本.


Pet*_*ebb 2

查看 Lucene 用来完成任务的算法。不过,它们可能不会很简单。我曾经不得不研究其中一些算法,其中一些非常复杂。

如果您可以识别要索引的文本中的“单词”,只需构建一个大型单词哈希表,该哈希表将单词的哈希值映射到其在每个文件中的出现次数。如果用户经常重复相同的搜索,则缓存搜索结果。搜索完成后,您可以检查每个位置以确认搜索词位于该位置,而不仅仅是具有匹配哈希的单词。

另外,谁真正关心索引是否比文件本身大?如果您的系统真的这么大,有如此多的活动,那么索引的几十个演出就意味着世界末日了吗?