小编Chr*_*tis的帖子

在一个巨大的 (70GB)、一行、文本文件中替换字符串

我有一个巨大的(70GB)一行文本文件,我想替换其中的一个字符串(令牌)。我想<unk>用另一个虚拟令牌(手套问题)替换令牌。

我试过sed

sed 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
Run Code Online (Sandbox Code Playgroud)

但输出文件corpus.txt.new有零字节!

我也尝试过使用 perl:

perl -pe 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
Run Code Online (Sandbox Code Playgroud)

但我遇到了内存不足错误。

对于较小的文件,上述两个命令都有效。

如何替换字符串是这样的文件? 是一个相关的问题,但没有一个答案对我有用。

编辑:如何将文件拆分为 10GB(或其他任何大小)的块并应用sed到其中的每一个然后将它们合并cat?那有意义吗?有没有更优雅的解决方案?

sed large-files text-processing

129
推荐指数
11
解决办法
3万
查看次数

删除文件夹中小于特定宽度/高度的所有jpg

我已经用 photorec 恢复了大约 7.500 jpg。我已将它们全部移到一个文件夹中。其中很大一部分是缩略图。但我不能继续删除让我们说所有小于 X 字节的照片,因为我有一些旧照片是从旧手机中拍摄的。因此,有 15KB 的拇指和大小相同但分辨率(尺寸)更大的常规照片。

所以我想要一种方法来删除那些小于 x 像素宽的东西。这可以从终端完成吗?

谢谢。

shell-script files images

5
推荐指数
0
解决办法
4273
查看次数

标签 统计

files ×1

images ×1

large-files ×1

sed ×1

shell-script ×1

text-processing ×1