使用按位运算符进行快速字符串搜索

ale*_*lex 3 c string algorithm bit-manipulation bioinformatics

使用按位运算符在非常长的字符串中查找子字符串的最快(并行？)方法是什么？

例如,在人类基因组中查找"GCAGCTGAAAACA"序列的所有位置http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/hg18.2bit(770MB)

*字母表由4个符号组成('G','C',T,'A'),用2位表示:'G':00,'A':01,'T':10,'C':11

*您可以假设查询字符串(较短的字符串)的长度是固定的,例如127个字符

*最快我的意思是不包括任何预处理/索引时间

*文件将在预处理后加载到内存中,基本上会在更大的字符串中搜索数十亿个短字符串,全部在内存中.

*按位,因为我正在寻找最简单,最快速的方法来搜索大型阵列中的位模式,并尽可能保持与硅的接近.

*由于字母表很小,KMP不会很好用

*C代码,x86机器代码都很有趣.

输入格式说明(.2bit):http://jcomeau.freeshell.org/www/genome/2bitformat.html

有关:

扫描位流中位模式的最快方法

算法帮助!使用其伙伴搜索字符串的快速算法

http://www.arstdesign.com/articles/fastsearch.html

http://en.wikipedia.org/wiki/Bitap_algorithm

如果您只是浏览一个文件,那么您几乎可以保证受到限制.使用大缓冲区(~16K),strstr()应该是您所需要的.如果文件是用ascii编码的,那么只搜索"gcagctgaaaaca".如果它实际上是以位编码的; 只是置换可能接受的字符串(应该有~8;丢掉第一个字节),并使用memmem()加上一个微小的重叠位检查.

我会在这里注意到glibc strstr并且memmem已经使用Knuth-Morris-Pratt来搜索线性时间,因此测试性能.它可能会让你大吃一惊

归档时间：	14 年前
查看次数：	2943 次
最近记录：	13 年，11 月前

扫描位流中位模式的最快方法 37

算法帮助!使用其伙伴搜索字符串的快速算法 8

更多相关链接

在特定位置的字符串中插入字符 139

JavaScript字符串中有多少字节？ 78

错误:粘贴"." 并且"red"不提供有效的预处理令牌 37

如何从字符串初始化char数组 15

此操作是否正确排序？ 15

找到100个最接近原点的恒星的算法 14

确定Int是否是Haskell中的完美正方形的方法是什么？ 13

遗传算法绘制图形？职位分配问题 9

内存高效的电源设置算法 8

什么是C++中strstr()函数的时间复杂度,空间复杂度和算法？ 7

'git pull'和'git fetch'有什么区别？ 11447

如何在Linux上找到包含特定文本的所有文件？ 4914

如何在ActionScript 3中将"Null"(真正的姓氏!)传递给SOAP Web服务？ 4603

Python中追加与扩展列表方法的区别 3119

电话和申请有什么区别？ 3012

数据库索引如何工作？ 2335

如何在Python中连接两个列表？ 2250

npm package.json文件中依赖项,devDependencies和peerDependencies之间有什么区别？ 1872

漂亮的git分支图 1290

这是什么意思？"'NSUnknownKeyException',原因:...此类不是键值X的键值编码兼容" 1143