我有一个巨大的(70GB)一行文本文件,我想替换其中的一个字符串(令牌)。我想<unk>
用另一个虚拟令牌(手套问题)替换令牌。
我试过sed
:
sed 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
Run Code Online (Sandbox Code Playgroud)
但输出文件corpus.txt.new
有零字节!
我也尝试过使用 perl:
perl -pe 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
Run Code Online (Sandbox Code Playgroud)
但我遇到了内存不足错误。
对于较小的文件,上述两个命令都有效。
如何替换字符串是这样的文件? 这是一个相关的问题,但没有一个答案对我有用。
编辑:如何将文件拆分为 10GB(或其他任何大小)的块并应用sed
到其中的每一个然后将它们合并cat
?那有意义吗?有没有更优雅的解决方案?
我已经用 photorec 恢复了大约 7.500 jpg。我已将它们全部移到一个文件夹中。其中很大一部分是缩略图。但我不能继续删除让我们说所有小于 X 字节的照片,因为我有一些旧照片是从旧手机中拍摄的。因此,有 15KB 的拇指和大小相同但分辨率(尺寸)更大的常规照片。
所以我想要一种方法来删除那些小于 x 像素宽的东西。这可以从终端完成吗?
谢谢。