我正在尝试读取csv文件,但我的 csv 文件不同。有些有不同的格式,有些有其他的。我正在尝试添加控件,这样我就不需要编辑我的代码或我的输入文件。
我的问题是,其中一些 csv 文件在列标题上方有一行字符串。一个例子:
Created on 12-11-2018,CryptoDataDownload.com
Date,Symbol,Open,High,Low,Close,Volume From,Volume To
2018-12-11 11-AM,ADABTC,8.6e-06,8.61e-06,8.55e-06,8.57e-06,301141.7,2.59
2018-12-11 10-AM,ADABTC,8.69e-06,8.72e-06,8.6e-06,8.6e-06,236949.63,2.05
Run Code Online (Sandbox Code Playgroud)
如果我导入它,分隔符将使用第一行并将文件分成两列作为Created on 12-11-2018和CryptoDataDownload.com。
这是df.head()这样的:
Created on 12-11-2018 CryptoDataDownload.com
Date Symbol Open High Low Close Volume From Volume To
2018-12-11 11-AM ADABTC 8.6e-06 8.61e-06 8.55e-06 8.57e-06 301141.7 2.59
2018-12-11 10-AM ADABTC 8.69e-06 8.72e-06 8.6e-06 8.6e-06 236949.63 2.05
2018-12-11 09-AM ADABTC 8.7e-06 8.7e-06 8.62e-06 8.69e-06 509311.39 4.41
2018-12-11 08-AM ADABTC 8.69e-06 8.7e-06 8.63e-06 8.7e-06 111367.34 0.9656
Run Code Online (Sandbox Code Playgroud)
我想检查这个文件是否有这一行,如果有就跳过它。
我怎样才能做到这一点?
如果 CSV 文件中的标题遵循类似的模式,您可以做一些简单的事情,例如在确定是否跳过第一行之前嗅出第一行。
filename = '/path/to/file.csv'
skiprows = int('Created in' in next(open(filename)))
df = pd.read_csv(filename, skiprows=skiprows)
Run Code Online (Sandbox Code Playgroud)
好的做法是使用上下文管理器,因此您也可以这样做:
filename = '/path/to/file.csv'
skiprows = 0
with open(filename, 'r+') as f:
for line in f:
if line.startswith('Created '):
skiprows = 1
break
df = pd.read_csv(filename, skiprows=skiprows)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2588 次 |
| 最近记录: |