相关疑难解决方法(0)

不一致的pandas read_csv dtype推断大型TSV文件中的大部分整数字符串列

我有一个制表符分隔文件,其中一列应该被解释为一个字符串,但许多条目都是整数.使用小文件read_csv在看到一些非整数值后正确地将列解释为字符串,但是对于较大的文件,这不起作用:

import pandas as pd
df = pd.DataFrame({'a':['1']*100000 + ['X']*100000 + ['1']*100000, 'b':['b']*300000})
df.to_csv('test', sep='\t', index=False, na_rep='NA')
df2 = pd.read_csv('test', sep='\t')
print df2['a'].unique()
for a in df2['a'][262140:262150]:
    print repr(a)

Run Code Online (Sandbox Code Playgroud)

输出: