Pandas DataFrame Read 跳过第 XXX 行：预期 X 字段，看到 Y

use*_*806 8 python csv pandas

我无法弄清楚我尝试加载的 csv 文件有什么问题：

我收到如下错误消息： b'Skipping line 2120260: expected 6 fields, saw 8\n'

但是当我查看这些线条时，它们对我来说看起来还不错。见下文——（我将在每个选项卡 \t 后按 Enter 以使其更易于阅读）。

第 2,120,260 行（失败）： ['user_000104\t 2005-09-12T06:25:50Z\t a019a8cf-2601-4a81-b3c3-7b279a873713\t Anne Clark\t 8f8e6bc0-c3c0-4062-875a-773a1de6206f\t Empty Me']

第 9,000 行（未失败）： ['user_000001\t 2008-06-15T17:28:31Z\t a3031680-c359-458f-a641-70ccbaec6a74\t Steve Reich\t 2991db42-3b19-4344-a340-605ac3fbd7e9\t Drumming: Part Iv']

如果有人想亲自尝试，请下载：

http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html

并运行： inpFile2 = pd.read_csv(fPath, sep='\t', error_bad_lines= False)

产生错误。和： def checkRow(path,N): with open(path, 'r') as f: print("This is the line.") print(next(itertools.islice(csv.reader(f), N, None)))

查看错误行（传入文件路径和您感兴趣的行）。确保导入 csv 并导入 itertools。

好吧，我设法弄明白了。

解决方案是quoting=csv.QUOTE_NONE在 read_csv 命令中用作参数。 inpFile = pd.read_csv(fPath, sep='\t', error_bad_lines= False,quoting=csv.QUOTE_NONE)

原因是其中一个字段中存在双引号，这导致 Pandas 感到困惑，因此需要告诉它不要寻找字符串/引号。进行上述更改似乎已加载它。

如果您只是想“隐藏”行错误的警告，您可以使用参数warn_bad_lines=False，而不是默认值 True，更多信息如下：pandas.pydata.org/pandas-docs

归档时间：	8 年，9 月前
查看次数：	11597 次
最近记录：	5 年，5 月前

我可以在Python中执行有序的默认dict吗？ 174

sklearn中'transform'和'fit_transform'之间的区别是什么？ 85

以Python形式将标头添加到csv文件中 64

Python:namedtuple._replace()不能像文档中描述的那样工作 41

将MYSQL表导出为CSV时如何处理空字段 14

如何将一系列一个值转换为仅浮点数？ 6

Python3 CSV模块和字典 5

用于在 CSV 文件中查找未转义双引号的正则表达式 4

无法将字典写入csv,其中键作为标题,值作为列 2

在 Swift 中将对象写入 CSV 时如何处理逗号？ -1

如何在Linux中一步更改文件夹及其所有子文件夹和文件的权限？ 1711

如何删除GitHub上的提交？ 1619

重命名pandas中的列 1601

如何在Xcode 4中"添加现有框架"？ 1426

什么是C++ 11中的lambda表达式？ 1408

你怎么读斯坦丁？ 1389

如何完全删除使用init创建的git存储库？ 1358

是否有"以前的兄弟"CSS选择器？ 1253

如何撤消"git commit --amend"而不是"git commit" 1198

感叹号在功能之前做了什么？ 1190