附加到HDFStore失败,"无法匹配现有的表结构"

Question

附加到HDFStore失败,"无法匹配现有的表结构"

最终的解决方案是使用read_csv的"converters"参数,并在将其添加到DataFrame之前检查每个值.最终,超过80GB的原始数据中只有2个破碎的值.

参数如下所示:

converters={'XXXXX': self.parse_xxxxx}

Run Code Online (Sandbox Code Playgroud)

像这样的小静态助手方法:

@staticmethod
def parse_xxxxx(input):
    if not isinstance(input, float):
        try:
            return float(input)
        except ValueError:
            print "Broken Value: ", input
            return float(0.0)
    else:
         return input

Run Code Online (Sandbox Code Playgroud)

在尝试阅读ca. 40GB +的csv数据到HDF文件中我遇到了一个令人困惑的问题.读取大约1GB后,整个过程失败,出现以下错误

File "/usr/lib/python2.7/dist-packages/pandas/io/pytables.py", line 658, in append
    self._write_to_group(key, value, table=True, append=True, **kwargs)
  File "/usr/lib/python2.7/dist-packages/pandas/io/pytables.py", line 923, in write_to_group
    s.write(obj = value, append=append, complib=complib, **kwargs)
  File "/usr/lib/python2.7/dist-packages/pandas/io/pytables.py", line 2985, in write **kwargs)
  File "/usr/lib/python2.7/dist-packages/pandas/io/pytables.py", line 2675, in create_axes
    raise ValueError("cannot match existing table structure for [%s] on appending data" % items)
ValueError: cannot match existing table structure for [Date] on appending data

Run Code Online (Sandbox Code Playgroud)

我使用的read_csv调用如下:

pd.io.parsers.read_csv(filename, sep=";|\t", compression='bz2', index_col=False, header=None, names=['XX', 'XXXX', 'Date', 'XXXXX'], parse_dates=[2], date_parser=self.parse_date, low_memory=False, iterator=True, chunksize=self.input_chunksize, dtype={'Date': np.int64})

Run Code Online (Sandbox Code Playgroud)

当我明确地将dtypte设置为int64时,为什么新块的"Date"列不适合现有的colum？

谢谢你的帮助!

这是解析日期的函数:

@staticmethod
def parse_date(input_date):
       import datetime as dt
       import re

       if not re.match('\d{12}', input_date):
           input_date = '200101010101'

        timestamp = dt.datetime.strptime(input_date, '%Y%m%d%H%M')
        return timestamp

Run Code Online (Sandbox Code Playgroud)

按照Jeff的一些提示,我可以提供有关我的问题的更多详细信息.这是我用来加载bz2编码文件的完整代码:

iterator_data = pd.io.parsers.read_csv(filename, sep=";|\t", compression='bz2', index_col=False, header=None,
                                               names=['XX', 'XXXX', 'Date', 'XXXXX'], parse_dates=[2],
                                               date_parser=self.parse_date, iterator=True,
                                               chunksize=self.input_chunksize, dtype={'Date': np.int64})
for chunk in iterator_data:
    self.data_store.append('huge', chunk, data_columns=True)
    self.data_store.flush()

Run Code Online (Sandbox Code Playgroud)

csv文件遵循以下模式:{STRING}; {STRING}; {STRING}\t {INT}

输出ptdump -av要求的输出文件如下:

ptdump -av datastore.h5
/ (RootGroup) ''
  /._v_attrs (AttributeSet), 4 attributes:
   [CLASS := 'GROUP',
    PYTABLES_FORMAT_VERSION := '2.0',
    TITLE := '',
    VERSION := '1.0']
/huge (Group) ''
  /huge._v_attrs (AttributeSet), 14 attributes:
   [CLASS := 'GROUP',
    TITLE := '',
    VERSION := '1.0',
    data_columns := ['XX', 'XXXX', 'Date', 'XXXXX'],
    encoding := None,
    index_cols := [(0, 'index')],
    info := {'index': {}},
    levels := 1,
    nan_rep := 'nan',
    non_index_axes := [(1, ['XX', 'XXXX', 'Date', 'XXXXX'])],
    pandas_type := 'frame_table',
    pandas_version := '0.10.1',
    table_type := 'appendable_frame',
    values_cols := ['XX', 'XXXX', 'Date', 'XXXXX']]
/huge/table (Table(167135401,), shuffle, blosc(9)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "XX": StringCol(itemsize=16, shape=(), dflt='', pos=1),
  "XXXX": StringCol(itemsize=16, shape=(), dflt='', pos=2),
  "Date": Int64Col(shape=(), dflt=0, pos=3),
  "XXXXX": Int64Col(shape=(), dflt=0, pos=4)}
  byteorder := 'little'
  chunkshape := (2340,)
  autoIndex := True
  colindexes := {
    "Date": Index(6, medium, shuffle, zlib(1)).is_CSI=False,
    "index": Index(6, medium, shuffle, zlib(1)).is_CSI=False,
    "XXXX": Index(6, medium, shuffle, zlib(1)).is_CSI=False,
    "XXXXX": Index(6, medium, shuffle, zlib(1)).is_CSI=False,
    "XX": Index(6, medium, shuffle, zlib(1)).is_CSI=False}
  /huge/table._v_attrs (AttributeSet), 23 attributes:
   [XXXXX_dtype := 'int64',
    XXXXX_kind := ['XXXXX'],
    XX_dtype := 'string128',
    XX_kind := ['XX'],
    CLASS := 'TABLE',
    Date_dtype := 'datetime64',
    Date_kind := ['Date'],
    FIELD_0_FILL := 0,
    FIELD_0_NAME := 'index',
    FIELD_1_FILL := '',
    FIELD_1_NAME := 'XX',
    FIELD_2_FILL := '',
    FIELD_2_NAME := 'XXXX',
    FIELD_3_FILL := 0,
    FIELD_3_NAME := 'Date',
    FIELD_4_FILL := 0,
    FIELD_4_NAME := 'XXXXX',
    NROWS := 167135401,
    TITLE := '',
    XXXX_dtype := 'string128',
    XXXX_kind := ['XXXX'],
    VERSION := '2.6',
    index_kind := 'integer']

Run Code Online (Sandbox Code Playgroud)

经过大量的额外调试后,我遇到了以下错误:

ValueError: invalid combinate of [values_axes] on appending data [name->XXXX,cname->XXXX,dtype->int64,shape->(1, 10)] vs current table [name->XXXX,cname->XXXX,dtype->string128,shape->None]

Run Code Online (Sandbox Code Playgroud)

然后我尝试通过添加修改read_csv调用来修复此问题,以便强制XXXX列的正确类型,但只是收到相同的错误:

dtype={'XXXX': 's64', 'Date': dt.datetime})

Run Code Online (Sandbox Code Playgroud)

read_csv是否忽略了dtype设置或我在这里缺少什么？

当使用块大小为10读取数据时,最后2个chunk.info()调用给出以下输出:

Int64Index: 10 entries, 0 to 9
Data columns (total 4 columns):
XX         10  non-null values
XXXX       10  non-null values
Date       10  non-null values
XXXXX      10  non-null values
dtypes: datetime64[ns](1), int64(1), object(2)<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 0 to 9
Data columns (total 4 columns):
XX         10  non-null values
XXXX       10  non-null values
Date       10  non-null values
XXXXX      10  non-null values
dtypes: datetime64[ns](1), int64(2), object(1)

Run Code Online (Sandbox Code Playgroud)

我正在使用pandas版本0.12.0.

Answer 1

Jef*_*eff 6

好的,你有几个问题:

在指定要传递给的dtypes时read_csv,它们必须是numpy dtypes; 和字符串dtypes转换为dtype object(所以s64不做任何事情).也不是datetime,这parse_dates就是使用的东西.
你的dtypes在不同的块中是不同的,在第一个你有2 int64列和1 object,而第二个有1 int64和2 object.这是你的问题.(我认为错误信息可能有点令人困惑,IIRC在后续版本的熊猫中得到修复).

所以,你需要在每个块中使你的dtypes保持一致.您可能在该特定列中包含混合数据.一种方法是指定dtype = { column_that_is_bad : 'object' }.另一种方法是使用convert_objects(convert_numeric=True)ON THAT列强制所有非数字值nan(这也会将列的dtype更改为float64).

归档时间：	11 年，11 月前
查看次数：	3745 次
最近记录：	11 年，11 月前