这个问题可能有一个简单的答案,但是在读取一个非常大的 csv 文件时,有很多行有一个额外的列。根据数据集的条件,我知道我可以使用 忽略这些行error_bad_lines = False,但是,当我这样做时,它会将每个实例报告给 shell,这会带来很多不必要的混乱。有没有办法禁用报告,或者配置熊猫来接受这些行,但只接受前三列?
我是一个新的 Ubuntu 用户,正在处理一个非常大的文件,其中包含一些可以安全跳过的非 utf8 字符。我发现了另一个堆栈溢出问题How to remove non UTF-8 characters from text file that give a way to remove those characters, using the command
iconv -f utf-8 -t utf-8 -c file.txt
Run Code Online (Sandbox Code Playgroud)
但是对于我的文件的大小,这会输出每一行,这需要太多时间。我对 Ubuntu 命令不太熟悉,所以如果有人能指导我修改该命令以抑制输出,我将不胜感激