从c字符数组创建PyString而不复制

ate*_*rel 10 c python

我有一个C应用程序的大型字符串缓冲区(基本上是12GB).

我想在C中为嵌入式Python解释器创建PyString对象而不复制字符串.这可能吗?

Tra*_*ant 7

我不认为这可能是因为Python String对象嵌入到PyObject结构中的基本原因.换句话说,Python字符串对象是PyObject_HEAD,后跟字符串的字节.您必须在内存中有空间将PyObject_HEAD信息放在现有字节周围.


ate*_*rel 7

没有副本就不能使用PyString,但可以使用ctypes.事实证明,ctypes.c_char_p工作基本上像一个字符串.例如,使用以下C代码:

static char* names[7] = {"a", "b", "c", "d", "e", "f", "g"};                                      
PyObject *pFunc, *pArgs, *pValue;
pFunc = td_py_get_callable("my_func");
pArgs = PyTuple_New(2);
pValue = PyLong_FromSize_t((size_t) names);
PyTuple_SetItem(pArgs, 0, pValue);
pValue = PyLong_FromLong(7);
PyTuple_SetItem(pArgs, 1, pValue);
pValue = PyObject_CallObject(pFunc, pArgs);
Run Code Online (Sandbox Code Playgroud)

然后可以使用以下python传递地址和字符串数my_func:

def my_func(names_addr, num_strs):
    type_char_p = ctypes.POINTER(ctypes.c_char_p)
    names = type_char_p.from_address(names_addr)
    for idx in range(num_strs):
        print(names[idx])
Run Code Online (Sandbox Code Playgroud)

当然谁真的想在Python中传递地址和长度.如果我们需要使用它们,我们可以将它们放在一个numpy数组中并传递然后转换:

def my_func(name_addr, num_strs):
    type_char_p = ctypes.POINTER(ctypes.c_char_p)
    names = type_char_p.from_address(names_addr)
    // Cast to size_t pointers to be held by numpy
    p = ctypes.cast(names, ctypes.POINTER(ctypes.c_size_t))
    name_addrs = numpy.ctypeslib.as_array(p, shape=(num_strs,))
    // pass to some numpy functions
    my_numpy_fun(name_addrs)
Run Code Online (Sandbox Code Playgroud)

挑战是评估numpy数组的索引只会给你一个地址,但内存与原始的c指针相同.我们可以强制转换为a ctypes.POINTER(ctypes.c_char_p)来访问值:

def my_numpy_func(name_addrs):
    names = name_addrs.ctypes.data_as(ctypes.POINTER(ctypes.c_char_p))
    for i in range(len(name_addrs)):
        print names[i]
Run Code Online (Sandbox Code Playgroud)

它并不完美,因为我不能numpy.searchsorted在numpy级别上使用类似二进制搜索的东西,但它确实传递了char*而没有足够好的副本.