Pandas读取带有可变行的CSV文件,以便在行的开头跳过特殊字符

Question

Pandas读取带有可变行的CSV文件,以便在行的开头跳过特殊字符

使用pandas,read_csv方法读取CSV文件时,如果事先不知道行数,如何跳过这些行？

我有一个CSV文件,其中包含文件开头的一些元数据,然后包含标题和实际数据.

元数据始终以#符号开头,它始终位于CSV文件的顶部.
元数据的行数不固定.

文件sample_file.csv的示例:

# Meta-Data Line 1
# Meta-Data Line 2
# Meta-Data Line 3
col1,col2,col3
a,b,c
d,e,f
g,h,i

Run Code Online (Sandbox Code Playgroud)

我如何使用Pandas read_csv函数和skiprows参数来读取csv？

df = pd.read_csv('sample_file.csv', skiprows=?)

Run Code Online (Sandbox Code Playgroud)

Pandas 0.19.X或更高版本是否支持此用例？

Answer 1

Bou*_*oud 5

comment 是你要搜索的:

df = pd.read_csv('sample_file.csv', comment='#')

Run Code Online (Sandbox Code Playgroud)

从文档:

comment:str,默认无

表示不应解析行的剩余部分.如果在行的开头找到,则该行将被完全忽略.此参数必须是单个字符.与空行一样(只要skip_blank_lines = True),参数标题将忽略完全注释的行,但不会被跳过.例如,如果comment ='#',则使用header = 0解析'#emptyna,b,cn1,2,3'将导致'a,b,c'被视为标题.

归档时间：	8 年，11 月前
查看次数：	1158 次
最近记录：	8 年，11 月前