Rabin-Karp算法

Pin*_*uck 8 c++ string algorithm performance rabin-karp

我有兴趣实现Rabin-Karp算法来搜索维基上所述的子字符串:http://en.wikipedia.org/wiki/Rabin-Karp_string_search_algorithm.不是为了完成家庭作业,而是为了自身利益.我已经实现了Rabin-Karp算法(如下所示)并且它可以工作.但是,性能真的非常糟糕!我知道我的哈希函数是基本的.但是,似乎对strstr()的简单调用总是胜过我的函数rabin_karp().我可以理解为什么 - 哈希函数比简单的char-by-char比较每个循环做更多的工作.我在这里错过了什么?Rabin-Karp算法应该比调用strstr()更快吗?何时最好使用Rabin-Karp算法?因此,我的自身利益.我甚至实现了算法吗?

size_t hash(char* str, size_t i)
{
   size_t h = 0;
   size_t magic_exp = 1;
// if (str != NULL)
   {
      while (i-- != 0)
      {
         magic_exp *= 101;
         h += magic_exp + *str;
         ++str;
      }
   }

   return h;
}

char* rabin_karp(char* s, char* find)
{
   char* p = NULL;

   if (s != NULL && find != NULL)
   {
      size_t n = strlen(s);
      size_t m = strlen(find);

      if (n > m)
      {
         size_t hfind = hash(find, m);

         char* end = s + (n - m + 1);
         for (char* i = s; i < end; ++i)
         {
            size_t hs = hash(i, m);
            if (hs == hfind)
            {
               if (strncmp(i, find, m) == 0)
               {
                  p = i;
                  break;
               }
            }
         }
      }
   }

   return p;
}
Run Code Online (Sandbox Code Playgroud)

Sea*_*lly 13

您尚未正确实现哈希.Rabin-Karp的关键是逐步更新散列,因为潜在匹配沿着要搜索的字符串移动.正如您所确定的,如果您重新计算每个潜在匹配位置的整个哈希,事情将会非常缓慢.

对于除第一次比较之外的每种情况,您的散列函数应该使用现有散列,一个新字符和一个旧字符,并返回更新的散列.