我已多次阅读过在HDF5中打开压缩可以带来更好的读/写性能.
我想知道什么样的理想设置可以在以下方面实现良好的读/写性能:
data_df.to_hdf(..., format='fixed', complib=..., complevel=..., chunksize=...)
Run Code Online (Sandbox Code Playgroud)
我已经在使用fixed
格式(即h5py
),因为它比它更快table
.我有强大的处理器,并不关心磁盘空间.
我经常存储DataFrame
第float64
和str
类型的约文件.2500行×9000列.
我正在尝试根据此处的教程使用plotly:http ://nbviewer.ipython.org/github/plotly/python-user-guide/blob/master/s00_homepage/s00_homepage.ipynb
似乎具有正确的库和Python版本,尽管在密谋导入时出现AttributeError。想知道是否有人遇到相同的问题,请参见下面的版本和stacktrace:
Python 2.7.5+ (default, Feb 27 2014, 19:37:08)
Type "copyright", "credits" or "license" for more information.
IPython 2.0.0 -- An enhanced Interactive Python.
? -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help -> Python's own help system.
object? -> Details about 'object', use 'object??' for extra details.
In [1]: import numpy
In [2]: numpy.__version__
Out[2]: '1.8.1'
In [3]: import pandas
In [4]: pandas.__version__
Out[4]: '0.13.1'
In [5]: import plotly
---------------------------------------------------------------------------
AttributeError Traceback (most …
Run Code Online (Sandbox Code Playgroud) dill
是一个很好的工具,用于挑选大多数Python对象,我在IPython并行使用它来序列化计算.我一直关注的一个问题是关于莳萝类的定义.我得到的一个错误解释如下.
虽然试图序列化类的定义,我不断收到AssertionError
从dill
.我想知道为什么其中一个工作而另一个工作失败:
class MyClassEmpty(object):
pass
class MyClassInit(object):
def __init__(self):
super(MyClassInit).__init__()
dill.dumps(MyClassEmpty) # returns: '\x80\x02cdill.dill\n_create_type\nq\x00(cdill.dill\n_load_type\nq\x01U\x08TypeTypeq\x02\x85q\x03Rq\x04U\x0cMyClassEmptyq\x05h\x01U\nObjectTypeq\x06\x85q\x07Rq\x08\x85q\t}q\n(U\n__module__q\x0bU\x08__main__q\x0cU\x07__doc__q\rNutq\x0eRq\x0f.'
dill.dumps(MyClassInit) # AssertionError at line 244 of MyClassEmpty (assert id(obj) not in self.memo)
Run Code Online (Sandbox Code Playgroud)
我使用dill 0.2.2在Python 2.7.6上.