我试图只获得Python中有超过400万行的csv.gz文件的前100行.我还想了解每列的#列和标题的信息.我怎样才能做到这一点?
我查看了python:从压缩文本文件中读取行以弄清楚如何打开文件,但我正在努力弄清楚如何实际打印前100行并获取列中信息的一些元数据.
我在python中找到了这个读取文件的前N行,但不知道如何将它与打开csv.gz文件结合并读取它而不保存未压缩的csv文件.
我写了这段代码:
import gzip
import csv
import json
import pandas as pd
df = pd.read_csv('google-us-data.csv.gz', compression='gzip', header=0, sep=' ', quotechar='"', error_bad_lines=False)
for i in range (100):
print df.next()
Run Code Online (Sandbox Code Playgroud)
我是Python的新手,我不理解结果.我确定我的代码是错的,我一直在尝试调试它,但我不知道要查看哪些文档.
我得到了这些结果(并且它一直在控制台上 - 这是一个摘录):
Skipping line 63: expected 3 fields, saw 7
Skipping line 64: expected 3 fields, saw 7
Skipping line 65: expected 3 fields, saw 7
Skipping line 66: expected 3 fields, saw 7
Skipping line 67: expected 3 fields, saw 7 …Run Code Online (Sandbox Code Playgroud)