the*_*220 2 regex file-io search
我正在为我的计算机安全课程开发一个项目,我有几个问题.我有一个想法,写一个程序,将搜索整个硬盘寻找电子邮件地址.我只是在寻找以纯文本格式存储的地址,因为否则很难找到任何其他内容.我认为找到地址的最佳方法是使用正则表达式.
我在C#中编写了一个相当不错的应用程序,但我想看看是否有人有更好的想法.我完全赞成用另一种语言写这个,因为我认为C#不是最适合这种类型的东西.到目前为止,我创建的应用程序只是从C:/开始,并以递归方式查找驱动器上的所有文件,跳过那些无法访问的文件.它还会跳过512mb以上的所有常见图像,视频,音频,压缩文件.这会加快它的速度,但是大文件很可能包含一些有用的东西.生成文件列表大约需要12秒钟,我猜大约需要一个小时来检查它们.一个缺点是它在扫描时使用大约50%的CPU.
我正在寻找有关如何改进搜索的想法.是否有更快的方式,更有效的方式,更彻底的方式,这样的事情?我试图思考是否有任何方法可以判断文件是否包含纯文本字符串.如果你有任何很酷的想法,请告诉我.谢谢.