序列化具有依赖项的python函数

Pra*_*nna 9 python pickle dill

我已经尝试了多种方法来挑选具有依赖关系的python函数,遵循StackOverflow上的许多建议(例如dill,cloudpickle等),但似乎都遇到了一个我无法弄清楚的基本问题.

我有一个主模块,试图从导入的模块中挑选一个函数,通过ssh发送它以进行unickled并在远程机器上执行.

所以主要有:

    import dill (for example)
    import modulea

    serial=dill.dumps( modulea.func )
    send (serial)
Run Code Online (Sandbox Code Playgroud)

在远程机器上:

        import dill
        receive serial
        funcremote = dill.loads( serial )
        funcremote()
Run Code Online (Sandbox Code Playgroud)

如果被腌制和发送的函数是main本身定义的顶级函数,那么一切正常.当它们位于导入的模块中时,加载功能将失败,并显示"未找到模块模块"类型的消息.

模块名称似乎与函数名称一起被腌制.我没有看到任何方法来"修复"pickle以消除依赖关系,或者在接收器中创建一个虚拟模块以成为unpickling的接收者.

任何指针都将非常感激.

--prasanna

Mik*_*rns 14

我是dill作者.我做了这件事ssh,但成功了.目前,dill任何其他序列化程序都通过引用来挑选模块...因此,要成功传递文件中定义的函数,您必须确保相关模块也安装在另一台机器上.我不相信有任何对象序列化器直接序列化模块(即不通过引用).

话虽如此,dill确实有一些序列化对象依赖的选项.例如,对于类实例,默认情况下dill不是通过引用序列化类实例...因此类定义也可以序列化并与实例一起发送.在dill,您还可以(使用一个非常新的功能)通过序列化文件来序列化文件句柄,而不是通过引用这样做.但同样,如果你有一个模块中定义的函数的情况,你就是运气不好,因为模块通过引用序列化非常普遍.

您可以使用dill这样做,但是,不是用于腌制对象,而是提取源并发送源代码.在pathos.pp和中pyina,dill我们习惯于提取任何对象(包括函数)的源依赖关系,并将它们传递给另一个计算机/进程/等.但是,由于这不是一件容易的事情,dill因此也可以使用尝试提取相关导入的故障转移并发送而不是源代码.

你可以理解,希望这是一件乱糟糟的事情(正如我在下面提到的函数的一个依赖关系中所指出的).但是,您所要求的是在pathos包中成功完成,以将代码和依赖项传递到跨ssh-tunneled端口的不同计算机.

>>> import dill
>>> 
>>> print dill.source.importable(dill.source.importable)
from dill.source import importable
>>> print dill.source.importable(dill.source.importable, source=True)
def _closuredsource(func, alias=''):
    """get source code for closured objects; return a dict of 'name'
    and 'code blocks'"""
    #FIXME: this entire function is a messy messy HACK
    #      - pollutes global namespace
    #      - fails if name of freevars are reused
    #      - can unnecessarily duplicate function code
    from dill.detect import freevars
    free_vars = freevars(func)
    func_vars = {}
    # split into 'funcs' and 'non-funcs'
    for name,obj in list(free_vars.items()):
        if not isfunction(obj):
            # get source for 'non-funcs'
            free_vars[name] = getsource(obj, force=True, alias=name)
            continue
        # get source for 'funcs'

#…snip… …snip… …snip… …snip… …snip… 

            # get source code of objects referred to by obj in global scope
            from dill.detect import globalvars
            obj = globalvars(obj) #XXX: don't worry about alias?
            obj = list(getsource(_obj,name,force=True) for (name,_obj) in obj.items())
            obj = '\n'.join(obj) if obj else ''
            # combine all referred-to source (global then enclosing)
            if not obj: return src
            if not src: return obj
            return obj + src
        except:
            if tried_import: raise
            tried_source = True
            source = not source
    # should never get here
    return
Run Code Online (Sandbox Code Playgroud)

我想也可以在dill.detect.parents方法周围建立一些东西,它提供了一个指向任何给定对象的所有父对象的指针列表......并且可以将任何函数的所有依赖关系重建为对象......但是这没有实现.

顺便说一句:建立一个ssh隧道,就这样做:

>>> t = pathos.Tunnel.Tunnel()
>>> t.connect('login.university.edu')
39322
>>> t  
Tunnel('-q -N -L39322:login.university.edu:45075 login.university.edu')
Run Code Online (Sandbox Code Playgroud)

然后,你可以在本地端口工作与ZMQ,或ssh,或什么的.如果你想这样做ssh,pathos也有内置.

  • 如果你的模块只包含一个文件,你可以使用`dill.source.getsource`来挑选模块,然后将该函数作为一个对象进行pickle并在之后发送它.或者,正如我在上面对你的问题的评论中提到的,你可以扩展`dill.Pickler`和`dill.Unpickler`检查任何函数的`__module__`属性,如果给定的模块不可用,那么设置` __module__ ='__ main __'`并且只要没有遗漏的依赖项就应该工作. (2认同)