Python pandas定界印记错误 - 双重标志

Pin*_*use 2 python csv delimiter pandas

这是我打开文件的代码:

df = pd.read_csv(path_df, delimiter='|')
Run Code Online (Sandbox Code Playgroud)

我收到错误:错误标记数据.C错误:13571行预计有5个字段,见6

当我检查这条特定的线时,我看到有一个印刷错误,有3个标志"|||" 而不是一个.我更喜欢将双重和三重标志视为一体.可能还有其他解决方案.

我怎么解决这个问题?

jez*_*ael 6

使用正则表达式分隔符[|]+- 一个或多个|:

import pandas as pd

temp=u"""a|b|c
ss|||s|s
t|g|e"""
#after testing replace 'pd.compat.StringIO(temp)' to 'filename.csv'
df = pd.read_csv(pd.compat.StringIO(temp), sep="[|]+",engine='python')

print (df)
    a  b  c
0  ss  s  s
1   t  g  e
Run Code Online (Sandbox Code Playgroud)