这是我试图摆脱的场景:
我正在尝试读取以下类型的 csv:
para1,para2,para3,para4
1,2,3,4,
1,2,3,4,5,
1,2,3,4,
2,3,4,5,6,7,8,9,0,
Run Code Online (Sandbox Code Playgroud)
我正在使用以下命令并收到以下错误:
>>> import pandas as pd
>>> df =pd.read_csv("test.csv")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 702, in parser_f
return _read(filepath_or_buffer, kwds)
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 435, in _read
data = parser.read(nrows)
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 1139, in read
ret = self._engine.read(nrows)
File "C:\Python35\lib\site-packages\pandas\io\parsers.py", line 1995, in read
data = self._reader.read(nrows)
File "pandas\_libs\parsers.pyx", line 899, in pandas._libs.parsers.TextReader.read
File "pandas\_libs\parsers.pyx", line 914, in pandas._libs.parsers.TextReader._read_low_memory
File "pandas\_libs\parsers.pyx", line 968, in pandas._libs.parsers.TextReader._read_rows
File "pandas\_libs\parsers.pyx", line 955, in pandas._libs.parsers.TextReader._tokenize_rows
File "pandas\_libs\parsers.pyx", line 2172, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: Expected 4 fields in line 3, saw 5
Run Code Online (Sandbox Code Playgroud)
我试图搜索这个问题并在 SO 上找到了这个线程:
Python Pandas Error tokenizing data
所以,我试过了。这不是我所期望的。它正在截断值。
>>> df =pd.read_csv("test.csv",error_bad_lines=False)
b'Skipping line 3: expected 4 fields, saw 5\nSkipping line 5: expected 4 fields, saw 9\n'
>>> df
para1 para2 para3 para4
0 1 2 3 4
1 1 2 3 4
Run Code Online (Sandbox Code Playgroud)
我想要的是这样的:
如果有额外的值,那么将列作为整数值,在额外的列中找到最高的列。然后将其余值设为零(0)直到最后一列并读取 csv。
我期待的输出是这样的:
>>> df =pd.read_csv("test.csv")
>>> df
para1 para2 para3 para4 0 1 2 3 4
0 1 2 3 4 NaN NaN NaN NaN NaN
1 1 2 3 4 5.0 NaN NaN NaN NaN
2 1 2 3 4 NaN NaN NaN NaN NaN
3 2 3 4 5 6.0 7.0 8.0 9.0 0.0
>>> df = df.fillna(0)
>>> df
para1 para2 para3 para4 0 1 2 3 4
0 1 2 3 4 0.0 0.0 0.0 0.0 0.0
1 1 2 3 4 5.0 0.0 0.0 0.0 0.0
2 1 2 3 4 0.0 0.0 0.0 0.0 0.0
3 2 3 4 5 6.0 7.0 8.0 9.0 0.0
Run Code Online (Sandbox Code Playgroud)
但是请注意,我不想照顾专栏。相反,程序必须自动理解并制作上面给出的列标题。
其次,请尽量避免建议我写标题。因为可能有很多列,我可能无法写入标题,而只是保持原样。所以缺少的列标题将是如上所述的数字整数。有人对查询有任何解决方案,请告诉我吗?
尝试使用下面的代码,先使用sep=' ',然后iloc使用 获取第一列,然后简单地str.split使用 和expand=True执行新的数据帧,然后使用fillna替换NaNs,最后一行是使用list推导式和来命名列list(range(...))。
所以你应该使用:
df = pd.read_csv("test.csv", sep=' ')
df2 = df.iloc[:, 0].str.replace(',$', '').str.split(',', expand=True).fillna(0)
dd = df.columns[0].split(',')
ff = [str(x) for x in range(len(df2.columns) - len(dd))]
df2.columns = dd + ff
print(df2)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
966 次 |
| 最近记录: |