小编dae*_*onk的帖子

在不加载内存的情况下随机播放大量项目

我有一个大约20亿行文本的文件(~200gig).我想生成一个包含相同文本行的新文件,但是按行随机洗牌.我无法将所有数据保存在内存中.有没有一个很好的方法在python /命令行中执行此操作需要一段合理的时间(几天)?

我以为我可以触摸50个空文件.流过20亿行文件,并将每行随机分配到50个空文件中的一个.然后cat 50个文件.对这种方法有任何重大的系统偏见吗?

python shuffle

13
推荐指数
3
解决办法
4736
查看次数

熊猫:如何基于X的列数大于一个数来选择行?

我可以data[data[data > 10].any(1)]用来选择任意列大于10的行,如果我想选择任意5列大于10的行怎么办?

python pandas

3
推荐指数
1
解决办法
3149
查看次数

pandas:如何根据所有列的总和选择行?

如何根据pandas中列的总和选择行?假设我想选择列总和大于0的所有行.

python pandas

2
推荐指数
1
解决办法
3598
查看次数

标签 统计

python ×3

pandas ×2

shuffle ×1