我有一个顺序用户空间程序(某种内存密集型搜索数据结构).以CPU周期数量来衡量的程序性能取决于底层数据结构的内存布局和数据高速缓存大小(LLC).
到目前为止,我的用户空间程序被调整为死亡,现在我想知道我是否可以通过将用户空间代码移动到内核(作为内核模块)来获得性能提升.我可以想到以下因素可以改善内核空间的性能......
- 没有系统调用开销(每次系统调用获得多少CPU周期).这不太重要,因为我几乎没有在我的程序中使用任何系统调用,除了在程序启动时分配内存.
- 控制调度,我可以创建一个内核线程,使其在给定的核心上运行而不会被丢弃.
- 我可以使用kmalloc内存分配,因此可以更好地控制分配的内存,也可以通过控制分配的内存来更精确地控制缓存着色.值得一试吗?
我向内核专家提出的问题......
- 我是否错过了上述列表中可以进一步提高性能的任何因素?
- 值得尝试还是直截了当地知道我不会得到太多的性能提升?
- 如果在内核中可以获得性能增益,那么估计可以获得多少增益(任何理论猜测)?
谢谢.