我必须从类似 CSV 的文件创建一个 pandas 数据框,该文件具有以下特征:
#
.我尝试使用pd.read_csv
带有参数sep=None
和 的方法来解决这个问题comment='#'
。据我了解,该sep=None
参数告诉 pandas 自动检测分隔符,并且该comment='#'
参数告诉 pandas 所有以 开头的行#
都是应该被忽略的注释行。
这些参数单独使用时效果很好。但是,当我同时使用它们时,我收到错误消息TypeError: expected string or bytes-like object
。以下代码示例演示了这一点:
from io import StringIO
import pandas as pd
# Simulated data file contents
tabular_data = (
'# Data generated on 04 May 2017\n'
'col1,col2,col3\n'
'5.9,7.8,3.2\n'
'7.1,0.4,8.1\n'
'9.4,5.4,1.9\n'
)
# This works
df1 = pd.read_csv(StringIO(tabular_data), sep=None)
print(df1)
# This also works
df2 = pd.read_csv(StringIO(tabular_data), comment='#')
print(df2)
# This will give an error
df3 = pd.read_csv(StringIO(tabular_data), sep=None, comment='#')
print(df3)
Run Code Online (Sandbox Code Playgroud)
不幸的是我真的不明白是什么触发了错误。这里有人能给我一些帮助来解决这个问题吗?
尝试这个:
In [186]: df = pd.read_csv(StringIO(tabular_data), sep=r'(?:,|\s+)',
comment='#', engine='python')
In [187]: df
Out[187]:
col1 col2 col3
0 5.9 7.8 3.2
1 7.1 0.4 8.1
2 9.4 5.4 1.9
Run Code Online (Sandbox Code Playgroud)
'(?:,|\s+)'
- 是一个正则表达式,用于选择逗号或任意数量的连续空格/制表符
归档时间: |
|
查看次数: |
2418 次 |
最近记录: |