ama*_*ouq 5 machine-learning pcap intrusion-detection
我最近使用DARPA网络流量包及其在KDD99中用于入侵检测评估的派生版本.
请原谅我在计算机网络领域的有限领域知识,我只能从DARPA数据包头中获得9个功能.而不是KDD99中使用的41个功能.
我打算继续我在UNB ISCX入侵检测评估数据集上的工作.但是,我想从pcap文件中获取KDD99中使用的41个功能并将其保存为CSV格式.有没有快速/简单的方法来实现这一目标?
因为之前已经为KDD99做过,有没有可以为我做这个的库或转换器?如果没有,是否有如何从pcap文件派生这些功能的指南?
小心这个数据集.
http://www.kdnuggets.com/news/2007/n18/4i.html
一些摘录:
人工数据是使用封闭网络,一些专有网络流量生成器和手动注入攻击生成的
在提出的问题中,最重要的似乎是没有进行任何验证来证明DARPA数据集实际上看起来像真正的网络流量.
2003年,Mahoney和Chan构建了一个简单的入侵检测系统,并针对DARPA tcpdump数据运行它.他们发现了许多违规行为,包括 - 由于数据的生成方式 - 所有恶意数据包的TTL分别为126或253,而几乎所有良性数据包的TTL分别为127或254.
DARPA数据集(以及扩展,KDD Cup '99数据集)从根本上被打破,并且无法从使用它们的任何实验中得出任何结论
我们强烈建议(1)所有研究人员停止使用KDD Cup '99数据集
至于使用的特征提取.IIRC大多数功能只是解析的 IP/TCP/UDP报头的属性.例如,端口号,IP的最后一个八位字节和一些包标志.
因此,无论如何,这些发现不再反映真实的攻击.今天的TCP/IP堆栈比创建数据集时更加强大,其中"ping of death"会立即锁定Windows主机.现在,TCP/IP堆栈的每个开发人员都应该意识到这种格式错误的数据包的风险,并对这些事情进行压力测试.
有了这个,这些功能变得毫无意义.在网络攻击中不再使用错误设置的SYN标志等; 这些要复杂得多; 并且很可能不再攻击TCP/IP堆栈,而是在下一层上运行的服务.因此,我不打算在使用90年代早期发生的攻击的'99有缺陷的模拟中找出哪些低级数据包标志...