我正在读取一个包含约950万行x 16列的大文件。
我对检索代表性样本感兴趣,并且由于数据是按时间组织的,因此我想通过选择第500个元素来做到这一点。
我能够加载数据,然后选择第500行。
我的问题:是否可以立即读取第500个元素(使用.pd.read_csv()或其他方法),而不必先读取然后过滤数据?
问题2:如果未订购日期列,您将如何解决此问题?目前,我假设它是按日期排序的,但是所有数据都容易出错。
这是数据的摘要(前五行)前四行乱序,其余数据集按时间排序(按时间):
VendorID tpep_pickup_datetime tpep_dropoff_datetime passenger_count trip_distance RatecodeID store_and_fwd_flag PULocationID DOLocationID payment_type fare_amount extra mta_tax tip_amount tolls_amount improvement_surcharge total_amount
0 1 2017-01-09 11:13:28 2017-01-09 11:25:45 1 3.30 1 N 263 161 1 12.5 0.0 0.5 2.00 0.00 0.3 15.30
1 1 2017-01-09 11:32:27 2017-01-09 11:36:01 1 0.90 1 N 186 234 1 5.0 0.0 0.5 1.45 0.00 0.3 7.25
2 1 2017-01-09 11:38:20 2017-01-09 11:42:05 1 1.10 1 N 164 161 1 5.5 0.0 0.5 …Run Code Online (Sandbox Code Playgroud)