嘿,任何人都可以告诉我 .DOM() 中的“frtip”是什么,是否有任何文档可以理解这一点?
我正在以 10,000 行的块读取 1 GB CSV 文件。该文件有 1106012 行和 171 列,其他较小的文件没有显示任何错误并成功完成,但是当我读取这个 1 GB 文件时,它每次都在行号 1106011 上显示错误,这是文件的倒数第二行,我可以手动删除该行,但这不是解决方案,因为我有数百个相同大小的其他文件,我无法手动修复所有行。任何人都可以帮我解决这个问题。
def extract_csv_to_sql(input_file_name, header_row, size_of_chunk, eachRow):
df = pd.read_csv(input_file_name,
header=None,
nrows=size_of_chunk,
skiprows=eachRow,
low_memory=False,
error_bad_lines=False,
sep=',')
# engine='python'
# quoting=csv.QUOTE_NONE
# encoding='utf-8'
df.columns = header_row
df = df.drop_duplicates(keep='first')
df = df.apply(lambda x: x.astype(str).str.lower())
return df
Run Code Online (Sandbox Code Playgroud)
然后我在循环中调用这个函数并且工作得很好。
huge_chunk_return = extract_csv_to_sql(huge_input_filename, huge_header_row, the_size_of_chunk_H, each_Row_H)
Run Code Online (Sandbox Code Playgroud)
我在将多个 csv 文件读取到 HDF5 时读取了这个Pandas ParserError EOF 字符,字符串中的这个read_csv() & EOF 字符导致解析问题,这个https://github.com/pandas-dev/pandas/issues/11654等等尝试包含 read_csv 参数,例如
引擎='蟒蛇'
quoting=csv.QUOTE_NONE …