小编kem*_*mri的帖子

apache arrow 如何促进“跨系统通信无开销”？

由于“零复制读取”、“零 Serde”和“跨系统通信无开销”的承诺，我现在对 Apache Arrow 非常感兴趣。我对这个项目的理解（通过 pyarrow 的视角）是它描述了数据的内存和格式，这样多个任务就可以像藏宝图一样读取它，并找到相同的数据（无需复制）。我想我可以在一个进程中看到它在 Python/Pandas 中是如何工作的；创建一个 Arrow 数组，将其传递给不同的对象，并观察整个“零复制”的运作过程非常容易。

然而，当我们谈论没有开销的跨系统通信时，我几乎完全迷失了。例如，PySpark 如何将 Java 对象转换为箭头格式，然后将其传递给 Python/Pandas？我试图查看这里的代码，但对于非 java/scala 人员来说，它看起来只是将 Spark 行转换为 Arrow 对象，然后转换为byteArrays （第 124 行），这看起来不像零复制、零开销大部头书。

同样，如果我想尝试将 Arrow 数组从 Python/pyarrow 传递到 Rust（使用 Rust 的 Arrow API），我无法思考如何做到这一点，特别是考虑到这种调用方法Python 中的 Rust 函数似乎不适用于 Arrow 原语。有没有办法将 Rust 和 Python 指向相同的内存地址？我是否必须以某种方式将箭头数据作为 byteArray 发送？

// lib.rs
#[macro_use]
extern crate cpython;

use cpython::{PyResult, Python};
use arrow::array::Int64Array;
use arrow::compute::array_ops::sum;

fn sum_col(_py: Python, val: Int64Array) -> PyResult<i64> {
    let total = …

Run Code Online (Sandbox Code Playgroud)

python rust pyspark apache-arrow pyarrow

kem*_*mri

2019 09-17

7
推荐指数

1
解决办法

1721
查看次数