小编AKΛ*_*AKΛ的帖子

读取和扩充(复制样本并更改某些值).csv 中的大型数据集的最有效方法是什么

目前,我已经设法解决了这个问题,但它比我需要的要慢。大约需要:500k 样本需要 1 小时,整个数据集约为 100M 样本,100M 样本需要约 200 小时。

硬件/软件规格:RAM 8GB、Windows 11 64 位、Python 3.8.8

问题:
我有一个 .csv(~13GB)的数据集,其中每个样本都有一个值和几个月的相应开始结束期。我想创建一个数据集,其中每个样本都具有相同的值,但引用每个特定的值月。

例如:

从:

idx | 开始日期 | 结束日期 | 月 | 年 | 值
0 | 2022 年 5 月 20 日 | 2022 年 7 月 20 日 | 0 | 0 | X

到:

0 | 2022 年 5 月 20 日 | 2022 年 7 月 20 日 | 5 | 2022 | X
1 | 2022 年 5 月 …

python csv large-data pandas data-augmentation

5
推荐指数
1
解决办法
296
查看次数

标签 统计

csv ×1

data-augmentation ×1

large-data ×1

pandas ×1

python ×1