从 Python 中的段错误中恢复

Dje*_*ent 5 python python-3.x python-3.8

我的代码中有一些函数会随机导致SegmentationFault错误。我通过启用faulthandler. 我有点卡住了,不知道如何可靠地消除这个问题。

我正在考虑一些解决方法。由于函数随机崩溃,我可能会在失败后重试它们。问题是没有办法从SegmentationFault崩溃中恢复。
我现在最好的想法是稍微重写这些函数并通过子进程运行它们。此解决方案将帮助我,崩溃的函数不会使整个应用程序崩溃,并且可以重试。

一些功能非常小并且经常执行,因此它会显着降低我的应用程序的速度。是否有任何方法可以在单独的上下文中执行函数,比在出现段错误时不会使整个程序崩溃的子进程更快?

小智 10

我有一些不可靠的 C 扩展每隔一段时间就会抛出段错误,因为我无法解决这个问题,所以我所做的是创建一个装饰器,它可以在单独的进程中运行包装的函数。这样你就可以阻止段错误杀死主进程。

像这样:https : //gist.github.com/joezuntz/e7e7764e5b591ed519cfd488e20311f1

我的有点简单,它为我完成了工作。此外,它允许您选择超时和默认返回值,以防出现问题:

#! /usr/bin/env python3

# std imports
import multiprocessing as mp


def parametrized(dec):
    """This decorator can be used to create other decorators that accept arguments"""

    def layer(*args, **kwargs):
        def repl(f):
            return dec(f, *args, **kwargs)

        return repl

    return layer


@parametrized
def sigsev_guard(fcn, default_value=None, timeout=None):
    """Used as a decorator with arguments.
    The decorated function will be called with its input arguments in another process.

    If the execution lasts longer than *timeout* seconds, it will be considered failed.

    If the execution fails, *default_value* will be returned.
    """

    def _fcn_wrapper(*args, **kwargs):
        q = mp.Queue()
        p = mp.Process(target=lambda q: q.put(fcn(*args, **kwargs)), args=(q,))
        p.start()
        p.join(timeout=timeout)
        exit_code = p.exitcode

        if exit_code == 0:
            return q.get()

        logging.warning('Process did not exit correctly. Exit code: {}'.format(exit_code))
        return default_value

    return _fcn_wrapper
Run Code Online (Sandbox Code Playgroud)

所以你会像这样使用它:


@sigsev_guard(default_value=-1, timeout=60)
def your_risky_function(a,b,c,d):
    ...

Run Code Online (Sandbox Code Playgroud)


小智 5

tl;dr:您可以使用signal, setjmp,编写 C 代码longjmp


您有多种选择要处理SIGSEGV

  • subprocess使用库生成子进程
  • multiprocessing使用库进行分叉
  • 编写自定义信号处理程序

子进程和 fork 已经被描述过,所以我将重点关注信号处理程序的观点。

编写信号处理程序

SIGSEGV从内核角度来看,与 、 、 等任何其他信号SIGUSR1没有SIGQUIT区别。SIGINT事实上,一些库(如 JVM)使用它们作为通信方式。

不幸的是,您无法从 python 代码覆盖信号处理程序。参见文档

捕获由 C 代码中的无效操作引起的同步错误(例如 SIGFPE 或 SIGSEGV)没有什么意义。Python 将从信号处理程序返回到 C 代码,这可能会再次引发相同的信号,导致 Python 明显挂起。从Python 3.3开始,您可以使用faulthandler模​​块来报告同步错误。

这意味着错误管理应该在 C 代码中完成。

您可以编写自定义信号处理程序并使用setjmplongjmp来保存和恢复堆栈上下文。

例如,下面是一个简单的 CPython C 扩展:

#include <signal.h>
#include <setjmp.h>

#define PY_SSIZE_T_CLEAN
#include <Python.h>

static jmp_buf jmpctx;

void handle_segv(int signo)
{
    longjmp(jmpctx, 1);
}

static PyObject *
install_sig_handler(PyObject *self, PyObject *args)
{
    signal(SIGSEGV, handle_segv);
    Py_RETURN_TRUE;
}

static PyObject *
trigger_segfault(PyObject *self, PyObject *args)
{
    if (!setjmp(jmpctx))
    {
        // Assign a value to NULL pointer will trigger a seg fault
        int *x = NULL;
        *x = 42;

        Py_RETURN_TRUE; // Will never be called
    }

    Py_RETURN_FALSE;
}

static PyMethodDef SpamMethods[] = {
    {"install_sig_handler", install_sig_handler, METH_VARARGS, "Install SIGSEGV handler"},
    {"trigger_segfault", trigger_segfault, METH_VARARGS, "Trigger a segfault"},
    {NULL, NULL, 0, NULL},
};

static struct PyModuleDef spammodule = {
    PyModuleDef_HEAD_INIT,
    "crash",
    "Crash and recover",
    -1,
    SpamMethods,
};

PyMODINIT_FUNC
PyInit_crash(void)
{
    return PyModule_Create(&spammodule);
}
Run Code Online (Sandbox Code Playgroud)

和来电者应用程序:

import crash

print("Install custom sighandler")
crash.install_sig_handler()

print("bad_func: before")
retval = crash.trigger_segfault()
print("bad_func: after (retval:", retval, ")")
Run Code Online (Sandbox Code Playgroud)

这将产生以下输出:

Install custom sighandler
bad_func: before
bad_func: after (retval: False )
Run Code Online (Sandbox Code Playgroud)

优点和缺点

优点:

  • 从操作系统的角度来看,应用程序只是捕获SIGSEGV常规信号。错误处理会很快。
  • 它不需要分叉(如果您的应用程序拥有各种类型的文件描述符、套接字等,则并不总是可能)
  • 它不需要生成子进程(并不总是可行且速度慢得多的方法)。

缺点:

  • 可能会导致内存泄漏。
  • 可能隐藏未定义/危险的行为

请记住,分段错误是一个非常严重的错误!始终尝试首先修复它而不是隐藏它。

很少的链接和参考: