我正在寻找一个编辑器,当我试图手动编辑一个 200G 的文件时,它会分块打开文件(而不是尝试将整个文件读入内存)。
我目前正在使用rsync
将 73GB 文件从三星便携式 SSD T7 复制到 HPC 集群。
rsync -avh path/to/dataset me@server.somewhere:/path/to/dest
Run Code Online (Sandbox Code Playgroud)
以下适用:
问题是,9个小时后,移动仍然没有完成。根据1,使用cp
空目录更好(第一次)。我不明白这一点,也不明白这是否属实。有人可以解释一下吗?
我有一个 12 GB 的文件,我试图使用 USB 将其从 MacBook Air 复制到 Debian 计算机。我尝试以多种不同方式格式化 USB,例如 NTFS、FAT32、OS X Journalizing,但 MacBook Air 抱怨无法复制如此大的文件,它只有只读访问权限,或者当我从MacBook,Linux 计算机无法识别文件系统。
是否有两种系统都能识别的文件系统类型可用于传输大文件?
我有一个巨大的文件,大约 4000000 行,看起来像这样:
文件:
1
1
2
3
2
4
...
Run Code Online (Sandbox Code Playgroud)
基本上,每一行都包含一个数字。考虑到这个例子,我想生成一个如下所示的文件:
新文件:
1
1
2
2
3
3
3
2
2
4
4
4
4
....
Run Code Online (Sandbox Code Playgroud)
当 n 是存储在原始行中的数字时,我希望每行重复 n 次。
正如我所提到的,文件非常大,所以我正在寻找最快的方法。我认为目前,我实现的代码瓶颈是我需要重新打开新文件进行写入。
我现在就是这样做的,但速度非常慢
while read i; do seq 1 ${i} | xargs -i -- echo $i >> newFile ;done < file
Run Code Online (Sandbox Code Playgroud)
非常感谢。
我有一个巨大的文件(~70GB),其中的行如下所示:
$ cat mybigfile.txt
5 7
1 1 0 -2 0 0 2
0 4 0 -4 0 0 4
0 0 1 -1 0 0 0
0 0 0 0 1 0 -1
0 0 0 0 0 1 -1
5 8
-1 -1 -1 -1 -1 1 1 1
0 0 2 0 0 0 -1 -1
3 3 3 -1 -1 -1 -1 -1
-1 -1 -1 0 2 0 0 0
-1 1 -1 …
Run Code Online (Sandbox Code Playgroud) 我有一个 bash 命令管道,它产生大量的日志文本输出。但除了时间戳和一些次要标志外,大多数情况下它会重复上一行,主要输出数据在几个小时内仅更改一次。我需要将此输出存储为文本文件以供将来处理/研究。为了只打印每个 X 中的第一行,我应该将它传送到什么地方?
我有一个大文本文件。
我需要从这个文件中快速拉出一堆行,比如从#14600 到#14700,作为一个单独的文件。
怎么做?
large-files ×7
awk ×1
cp ×1
editors ×1
filesystems ×1
python ×1
rsync ×1
software-rec ×1
ssd ×1
tail ×1
ubuntu ×1
usb ×1