如何解释内核中的地址oops

Han*_*hen 16 linux kernel linux-device-driver

我写的linux设备驱动程序中有一个内核oops.我想确定哪一行负责oops.我有以下输出,但我不知道如何解释它.

这是否意味着我的代码在write_func + 0x63处的指令处崩溃了?如何将EIP中的值与我自己的函数联系起来?反斜杠后的值是什么意思?

[10991.880354] BUG: unable to handle kernel NULL pointer dereference at   (null)
[10991.880359] IP: [<c06969d4>] iret_exc+0x7d0/0xa59
[10991.880365] *pdpt = 000000002258a001 *pde = 0000000000000000
[10991.880368] Oops: 0002 [#1] PREEMPT SMP
[10991.880371] last sysfs file: /sys/devices/platform/coretemp.3/temp1_input
[10991.880374] Modules linked in: nfs lockd fscache nfs_acl auth_rpcgss sunrpc   hdrdmod(F) coretemp(F) af_packet fuse edd cpufreq_conservative cpufreq_userspace cpufreq_powersave acpi_cpufreq mperf microcode dm_mod ppdev sg og3 ghes i2c_i801 igb hed pcspkr iTCO_wdt dca iTCO_vendor_support parport_pc floppy parport ext4 jbd2 crc16 i915 drm_kms_helper drm i2c_algo_bit video button fan processor thermal thermal_sys [last unloaded: preloadtrace]
[10991.880400]
[10991.880402] Pid: 4487, comm: python Tainted: GF           2.6.37.1-1.2-desktop #1 To be filled by O.E.M. To be filled by O.E.M./To be filled by O.E.M.
[10991.880408] EIP: 0060:[<c06969d4>] EFLAGS: 00210246 CPU: 0
[10991.880411] EIP is at iret_exc+0x7d0/0xa59
[10991.880413] EAX: 00000000 EBX: 00000000 ECX: 0000018c EDX: b7837000
[10991.880415] ESI: b7837000 EDI: 00000000 EBP: b7837000 ESP: e2a81ee0
[10991.880417]  DS: 007b ES: 007b FS: 00d8 GS: 0033 SS: 0068
[10991.880420] Process python (pid: 4487, ti=e2a80000 task=df940530 task.ti=e2a80000)
[10991.880422] Stack:
[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1 e4618290 0000018c
[10991.880438] Call Trace:
[10991.882006] Inexact backtrace:
[10991.882006]
[10991.882012]  [<e4616353>] ? write_func+0x63/0x160 [mymod]
[10991.882017]  [<c03718c1>] ? proc_file_write+0x71/0xa0
[10991.882020]  [<c0371850>] ? proc_file_write+0x0/0xa0
[10991.882023]  [<c036c971>] ? proc_reg_write+0x61/0x90
[10991.882026]  [<c036c910>] ? proc_reg_write+0x0/0x90
[10991.882031]  [<c0323060>] ? vfs_write+0xa0/0x160
[10991.882034]  [<c03243c6>] ? fget_light+0x96/0xb0
[10991.882037]  [<c0323331>] ? sys_write+0x41/0x70
[10991.882040]  [<c0202f0c>] ? sysenter_do_call+0x12/0x22
[10991.882044]  [<c069007b>] ? _lock_kernel+0xab/0x180
[10991.882046] Code: f3 aa 58 59 e9 5a f9 d7 ff 8d 0c 88 e9 12 fa d7 ff 01 d9 e9 7b fa d7 ff 8d 0c 8b e9 73 fa d7 ff 01 d9 eb 03 8d 0c 8b 51 50 31 c0 <f3> aa 58 59 e9 cf fa d7 ff 01 d9 e9 38 fb d7 ff 8d 0c 8b e9 30
[10991.882069] EIP: [<c06969d4>] iret_exc+0x7d0/0xa59 SS:ESP 0068:e2a81ee0
[10991.882072] CR2: 0000000000000000 
[10991.889660] ---[ end trace 26fe339b54b2ea3e ]---
Run Code Online (Sandbox Code Playgroud)

Tec*_*eks 30

您需要的所有信息都在那里:

[10991.880354] BUG: unable to handle kernel NULL pointer dereference at   (null)
Run Code Online (Sandbox Code Playgroud)

这就是原因.

[10991.880359] IP: [<c06969d4>] iret_exc+0x7d0/0xa59
Run Code Online (Sandbox Code Playgroud)

那是故障时的指令指针.我们马上就会回到这里.

[10991.880365] *pdpt = 000000002258a001 *pde = 0000000000000000
Run Code Online (Sandbox Code Playgroud)

这些是物理页表条目.描述符表和页面描述符条目.当然,后者是NULL,因为它是一个NULL指针.以上值很少有用(仅在需要物理内存映射的情况下)

[10991.880368] Oops: 0002 [#1] PREEMPT SMP
Run Code Online (Sandbox Code Playgroud)

这是oops代码.PREEMPT SMP向您显示内核是可抢占的,并为SMP而不是UP编译.这对于bug来自某些竞争条件等的情况很重要.

[10991.880371] last sysfs file: /sys/devices/platform/coretemp.3/temp1_input
Run Code Online (Sandbox Code Playgroud)

这不一定是罪魁祸首,但往往是.sys文件由各种内核模块导出,并且sys文件上的I/O操作通常会导致模块代码执行错误.

[10991.880374] Modules linked in: ... [last unloaded: preloadtrace]
Run Code Online (Sandbox Code Playgroud)

内核不一定知道应该责怪哪个模块,因此它会为您提供所有这些模块.此外,它很可能是最近卸载模块没有清理留下一些残留(像一些定时器,或回调)内核 - 这是哎呀或恐慌的经典案例.所以内核也报告了最后一个卸载的内核.

[10991.880402] Pid: 4487, comm: python Tainted: GF           2.6.37.1-1.2-desktop #1 To be filled by O.E.M. To be filled by O.E.M./To be filled by O.E.M.
Run Code Online (Sandbox Code Playgroud)

如果错误线程是用户模式线程,则获取PID和命令行."污点"标志是说这是不是一个内核故障内核的方式(内核源代码是开放的,"纯","污点"来自亵渎非GPL的模块,和其他人.

[10991.880408] EIP: 0060:[<c06969d4>] EFLAGS: 00210246 CPU: 0
[10991.880411] EIP is at iret_exc+0x7d0/0xa59
Run Code Online (Sandbox Code Playgroud)

这会直接以符号+偏移形式为您提供错误指令指针.斜杠后面的部分是函数的大小.

[10991.880413] EAX: 00000000 EBX: 00000000 ECX: 0000018c EDX: b7837000
[10991.880415] ESI: b7837000 EDI: 00000000 EBP: b7837000 ESP: e2a81ee0
[10991.880417]  DS: 007b ES: 007b FS: 00d8 GS: 0033 SS: 0068
Run Code Online (Sandbox Code Playgroud)

寄存器显示在这里.您的NULL可能是EAX.

[10991.880420] Process python (pid: 4487, ti=e2a80000 task=df940530 task.ti=e2a80000)
[10991.880422] Stack:
[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1 e4618290 0000018c
Run Code Online (Sandbox Code Playgroud)

显示堆栈指针附近的区域.内核不知道这些值是什么意思,但它们与显示$ rsp的gdb相同.因此,您需要了解它们是什么.(例如,c03718c1是内核返回地址,很有可能 - 那么你可以去的/ proc/kallsyms弄明白,或者依靠它在跟踪之中,因为它是下一个).这告诉您所有数据都是堆栈帧

现在,因为您有堆栈调用跟踪,所以可以将碎片放在一起:

[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 --> back to write_func

[            ]  ..................................................... 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1  --> back to proc_file_write

[10991.882046] Code: f3 aa 58 59 e9 5a f9 d7 ff 8d 0c 88 e9 12 fa d7 ff 01 d9 e9 7b fa d7 ff 8d 0c 8b e9 73 fa d7 ff 01 d9 eb 03 8d 0c 8b 51 50 31 c0 <f3> aa 58 59 e9 cf fa d7 ff 01 d9 e9 38 fb d7 ff 8d 0c 8b e9 30
Run Code Online (Sandbox Code Playgroud)

同样,内核不能为你拆解(它是oopsing,并且可能非常恐慌,给它一个休息!).但是您可以使用gdb来反汇编这些值.

所以现在你知道一切.实际上,你可以反汇编你自己的模块,并找出write_func中取消引用NULL指针的确切位置.(你可能将它作为参数传递给某个函数).