可以memmap熊猫系列.数据帧怎么样?

use*_*956 8 python numpy multidimensional-array pandas numpy-memmap

似乎我可以通过创建mmap'ddarray并使用它来初始化Series来为python系列记录底层数据.

        def assert_readonly(iloc):
           try:
               iloc[0] = 999 # Should be non-editable
               raise Exception("MUST BE READ ONLY (1)")
           except ValueError as e:
               assert "read-only" in e.message

        # Original ndarray
        n = 1000
        _arr = np.arange(0,1000, dtype=float)

        # Convert it to a memmap
        mm = np.memmap(filename, mode='w+', shape=_arr.shape, dtype=_arr.dtype)
        mm[:] = _arr[:]
        del _arr
        mm.flush()
        mm.flags['WRITEABLE'] = False  # Make immutable!

        # Wrap as a series
        s = pd.Series(mm, name="a")
        assert_readonly(s.iloc)
Run Code Online (Sandbox Code Playgroud)

成功!它似乎s是由只读的mem映射的ndarray支持.我可以为DataFrame执行相同的操作吗?以下失败

        df = pd.DataFrame(s, copy=False, columns=['a'])
        assert_readonly(df["a"]) # Fails
Run Code Online (Sandbox Code Playgroud)

以下成功,但仅适用于一列:

        df = pd.DataFrame(mm.reshape(len(mm,1)), columns=['a'], copy=False)
        assert_readonly(df["a"]) # Succeeds
Run Code Online (Sandbox Code Playgroud)

...所以我可以制作一个没有复制的DF.但是,这仅适用于一列,我想要很多.方法我发现组合1列DF:pd.concat(.. copy = False),pd.merge(copy = False),...结果副本.

我有数千个大型列作为数据文件,我一次只需要几个.我希望我能够将他们的mmap'd表示放在DataFrame中,如上所述.可能吗?

Pandas文档让人有点难以猜测这里发生了什么 - 虽然它确实说一个DataFrame "可以被认为是Series对象的类似dict的容器." .我现在开始这已不再是这种情况了.

我宁愿不需要HD5来解决这个问题.

use*_*956 10

好...经过大量挖掘,这是怎么回事。Pandas DataFrame使用BlockManager该类在内部组织数据。与文档相反,DataFrame不是系列的集合,而是类似dtyped矩阵的集合。BlockManger将所有float列,所有int列等分组在一起,等等,并且它们的内存(据我所知)保持在一起。

如果提供单个ndarray矩阵(单个类型),则无需复制内存即可做到这一点。请注意,BlockManager(理论上)还支持在其构造中不复制混合类型的数据,因为可能不必将此输入复制到相同类型的块中。但是,如果单个矩阵是数据参数,则DataFrame构造函数不会仅进行复制。

简而言之,如果您将混合类型或多个数组作为构造函数的输入,或者为dict提供单个数组,则您在Pandas中不走运,DataFrame的默认BlockManager将复制您的数据。

无论如何,解决此问题的一种方法是强制BlockManager不要按类型合并,而是将每一列保留为单独的“块”。所以,有了猴子修补魔法...

        from pandas.core.internals import BlockManager
        class BlockManagerUnconsolidated(BlockManager):
            def __init__(self, *args, **kwargs):
                BlockManager.__init__(self, *args, **kwargs)
                self._is_consolidated = False
                self._known_consolidated = False

            def _consolidate_inplace(self): pass
            def _consolidate(self): return self.blocks


        def df_from_arrays(arrays, columns, index):
            from pandas.core.internals import make_block
            def gen():
                _len = None
                p = 0
                for a in arrays:
                    if _len is None:
                        _len = len(a)
                        assert len(index) == _len
                    assert _len == len(a)
                    yield make_block(values=a.reshape((1,_len)), placement=(p,))
                    p+=1

            blocks = tuple(gen())
            mgr = BlockManagerUnconsolidated(blocks=blocks, axes=[columns, index])
            return pd.DataFrame(mgr, copy=False)
Run Code Online (Sandbox Code Playgroud)

如果指定copy = False,则DataFrame或BlockManger最好具有consolidate = False(或假设是这种行为)。

去测试:

    def assert_readonly(iloc):
       try:
           iloc[0] = 999 # Should be non-editable
           raise Exception("MUST BE READ ONLY (1)")
       except ValueError as e:
           assert "read-only" in e.message

    # Original ndarray
    n = 1000
    _arr = np.arange(0,1000, dtype=float)

    # Convert it to a memmap
    mm = np.memmap(filename, mode='w+', shape=_arr.shape, dtype=_arr.dtype)
    mm[:] = _arr[:]
    del _arr
    mm.flush()
    mm.flags['WRITEABLE'] = False  # Make immutable!

        df = df_from_arrays(
            [mm, mm, mm],
            columns=['a', 'b', 'c'],
            index=range(len(mm)))
        assert_read_only(df["a"].iloc)
        assert_read_only(df["b"].iloc)
        assert_read_only(df["c"].iloc)
Run Code Online (Sandbox Code Playgroud)

对我来说,将BlockManager类似类型的数据保存在一起是否真的有实际的好处-在Pandas中的大多数操作都是按行标签或逐列进行操作-这是DataFrame由于结构的异构通常仅通过其索引关联的列。尽管可行的是,他们在每个“块”中保留一个索引,但如果索引将偏移量保留在块中,则可以获得好处(如果是这种情况,那么他们应该按进行分组sizeof(dtype),我认为情况并非如此)。呵呵...

关于PR 提供非复制构造函数的讨论,已被放弃。

看来有逐步淘汰BlockManager的明智计划,因此您的工作量很多。

另请参阅引擎盖下的熊猫,这对我有很大帮助。