相关疑难解决方法(0)

如何在Python中将文本文件随机播放到磁盘上

我正在处理一个大约12*10 ^ 6行的文本文件,它存储在我的硬盘上.该文件的结构是:

data|data|data|...|data\n
data|data|data|...|data\n
data|data|data|...|data\n
...
data|data|data|...|data\n
Run Code Online (Sandbox Code Playgroud)

没有标题,并且没有唯一标识行的ID.

由于我想将它用于机器学习目的,我需要确保文本文件中没有可能影响随机学习的顺序.

通常我会将这种类型的文件上传到内存中,然后在将它们重写到磁盘之前对其进行随机播放.不幸的是,由于文件的大小,这次不可能,所以我必须直接在磁盘上管理洗牌(假设我没有磁盘空间的问题).关于如何有效地(尽可能低的复杂性,即写入磁盘)使用Python管理这样的任务的任何想法?

python shuffle text-files bigdata

1
推荐指数
1
解决办法
2259
查看次数

标签 统计

bigdata ×1

python ×1

shuffle ×1

text-files ×1