标签: large-files

什么linux编辑器可以在一两分钟内打开一个200G的文件进行编辑?

我正在寻找一个编辑器,当我试图手动编辑一个 200G 的文件时,它会分块打开文件(而不是尝试将整个文件读入内存)。

editors software-rec large-files

5
推荐指数
1
解决办法
378
查看次数

第一次运行时 cp 比 rsync 快吗?

我目前正在使用rsync将 73GB 文件从三星便携式 SSD T7 复制到 HPC 集群。

rsync -avh path/to/dataset me@server.somewhere:/path/to/dest
Run Code Online (Sandbox Code Playgroud)

以下适用:

  1. 我的本地计算机(连接 T7 的地方)是运行 Ubuntu 20 的 VirtualBox VM。
  2. T7 传输速度应高达约。1000MB/秒。
  3. 网络给我的上传速度大约为 7.9Mbps。
  4. 根据这个答案,Rsync 传输速度可能会成为 1-5MB/s 的瓶颈。

问题是,9个小时后,移动仍然没有完成。根据1,使用cp空目录更好(第一次)。我不明白这一点,也不明白这是否属实。有人可以解释一下吗?

ubuntu large-files ssd cp rsync

3
推荐指数
1
解决办法
4850
查看次数

什么文件系统允许在 Linux 和 OS X 之间传输文件?

我有一个 12 GB 的文件,我试图使用 USB 将其从 MacBook Air 复制到 Debian 计算机。我尝试以多种不同方式格式化 USB,例如 NTFS、FAT32、OS X Journalizing,但 MacBook Air 抱怨无法复制如此大的文件,它只有只读访问权限,或者当我从MacBook,Linux 计算机无法识别文件系统。

是否有两种系统都能识别的文件系统类型可用于传输大文件?

filesystems usb large-files

2
推荐指数
1
解决办法
1013
查看次数

多次但不同时间打印每一行

我有一个巨大的文件,大约 4000000 行,看起来像这样:

文件:

1 
1 
2 
3 
2 
4 
...
Run Code Online (Sandbox Code Playgroud)

基本上,每一行都包含一个数字。考虑到这个例子,我想生成一个如下所示的文件:

新文件:

1 
1 
2 
2 
3 
3 
3 
2 
2 
4 
4 
4 
4 
....
Run Code Online (Sandbox Code Playgroud)

当 n 是存储在原始行中的数字时,我希望每行重复 n 次。

正如我所提到的,文件非常大,所以我正在寻找最快的方法。我认为目前,我实现的代码瓶颈是我需要重新打开新文件进行写入。

我现在就是这样做的,但速度非常慢

while read i; do seq 1 ${i} | xargs -i -- echo $i >> newFile ;done < file
Run Code Online (Sandbox Code Playgroud)

非常感谢。

large-files

1
推荐指数
2
解决办法
123
查看次数

有没有一种有效的方法来解析 python 中的文本块?

我有一个巨大的文件(~70GB),其中的行如下所示:

$ cat mybigfile.txt
5 7  
    1    1    0   -2    0    0    2
    0    4    0   -4    0    0    4
    0    0    1   -1    0    0    0
    0    0    0    0    1    0   -1
    0    0    0    0    0    1   -1
5 8  
   -1   -1   -1   -1   -1    1    1    1
    0    0    2    0    0    0   -1   -1
    3    3    3   -1   -1   -1   -1   -1
   -1   -1   -1    0    2    0    0    0
   -1    1   -1 …
Run Code Online (Sandbox Code Playgroud)

large-files python

1
推荐指数
1
解决办法
868
查看次数

管道每 100 行跳过 99 行

我有一个 bash 命令管道,它产生大量的日志文本输出。但除了时间戳和一些次要标志外,大多数情况下它会重复上一行,主要输出数据在几个小时内仅更改一次。我需要将此输出存储为文本文件以供将来处理/研究。为了只打印每个 X 中的第一行,我应该将它传送到什么地方?

large-files awk tail text-processing

1
推荐指数
2
解决办法
193
查看次数

从大文本文件中提取几行

我有一个大文本文件。

我需要从这个文件中快速拉出一堆行,比如从#14600 到#14700,作为一个单独的文件。

怎么做?

large-files text-processing

-1
推荐指数
1
解决办法
4532
查看次数