Nit*_*nal 4 performance caching kernel cache-control
我有一个顺序用户空间程序(某种内存密集型搜索数据结构).以CPU周期数量来衡量的程序性能取决于底层数据结构的内存布局和数据高速缓存大小(LLC).
到目前为止,我的用户空间程序被调整为死亡,现在我想知道我是否可以通过将用户空间代码移动到内核(作为内核模块)来获得性能提升.我可以想到以下因素可以改善内核空间的性能......
我向内核专家提出的问题......
谢谢.
关于第1点:内核线程仍然可以被抢占,所以除非你正在制作大量的系统调用(你不是这样),否则这不会给你带来太大的影响.
关于第2点:您可以通过sched_setaffinity()在Linux上设置其关联性来将线程固定到特定核心.
关于第3点:你期待什么额外的控制?您已经可以使用从用户空间分配页面对齐的内存mmap().这已经允许您控制缓存的集合关联性,并且您可以使用内联汇编或编译器内在函数来进行任何手动预取提示或非时间写入.内核和用户空间中kmalloc()分配的内存之间的主要区别在于分配有线(不可分页)内存.我不明白这会有什么帮助.
我怀疑在使用SIMD,多线程或进行进一步算法或内存优化的并行化方面,您会看到更好的ROI.
cpuset为您的程序创建一个专用程序,并将所有其他进程移出它.然后使用以下内容通过FIFO调度策略将您的进程优先级提升到实时:
struct sched_param schedparams;
// Be portable - don't just set priority to 99 :)
schedparams.sched_priority = sched_get_priority_max(SCHED_FIFO);
sched_setscheduler(0, SCHED_FIFO, &schedparams);
Run Code Online (Sandbox Code Playgroud)
不要在单核系统上这样做!
保留足够大的堆栈空间alloca(3)并触摸所有分配的堆栈内存,映射足够的堆空间,然后使用mlock(2)或mlockall(2)固定处理内存.
即使你的程序是一个连续的一个,如果一个多插槽的Nehalem或后英特尔的Nehalem系统或AMD64系统中运行,NUMA效果可以降低运行速度.使用API函数numa(3)来分配和保留内存尽可能靠近程序执行的NUMA节点.
尝试其他编译器 - 其中一些编译器可能优于您当前使用的编译器.例如,英特尔的编译器在布置指令时非常具有攻击性,以便从乱序执行,流水线操作和分支预测中受益.