我有一个巨大的(大约半个 GiB,无法使用通常的文本编辑器)CSV 文件,其中的字段用双引号括起来,例如"abc","def"但需要一个不带引号的文件(我确信这不会破坏文件的一致性 -逗号从不在其中的值中使用)。
如何删除所有引号(不在其位置引入空格)?
我试图找到一种方法来确定一个文本文件是否是另一个文件的子集。
例如:
foo
bar
Run Code Online (Sandbox Code Playgroud)
是一个子集
foo
bar
pluto
Run Code Online (Sandbox Code Playgroud)
尽管:
foo
pluto
Run Code Online (Sandbox Code Playgroud)
和
foo
bar
Run Code Online (Sandbox Code Playgroud)
不是彼此的子集...
有没有办法用命令来做到这一点?
此检查必须是交叉检查,并且必须返回:
file1 subset of file2 : True
file2 subset of file1 : True
otherwise : False
Run Code Online (Sandbox Code Playgroud) 我有许多文件(Jupyter 笔记本.ipynb),它们是文本文件。所有这些都包含一些 LaTeX 标记。但是当我运行时file,我得到:
$ file nb_*
nb_1.ipynb: ASCII text
nb_2.ipynb: ASCII text
nb_3.ipynb: ASCII text, with very long lines
nb_4.ipynb: LaTeX document, ASCII text, with very long lines
nb_5.ipynb: text, with very long lines
Run Code Online (Sandbox Code Playgroud)
file这些怎么区分?我希望所有文件都具有相同的类型。
(为什么文件应该有相同的类型?我将它们上传到在线系统进行共享。系统以某种方式对它们进行分类并以不同的方式对待它们,我不可能更改它。我怀疑该平台在内部使用file或可能使用libmagic和想解决这个问题。)
我有一些 UTF-8 .txt 文件,我想将它们转换为全部大写。如果它只是 ASCII,我可以使用:
tr [:lower:] [:upper:]
Run Code Online (Sandbox Code Playgroud)
但由于我正在使用变音符号和其他东西,它似乎不起作用。我想如果我设置了适当的语言环境,它可能会起作用,但我需要这个脚本是可移植的。
我有这个文本文件:
714
01:11:22,267 --> 01:11:27,731
Auch wenn noch viele Generationen auf einen Wechsel hoffen,
Even if it takes many generations hoping for a change,
715
01:11:27,732 --> 01:11:31,920
werde ich mein Bestes geben
und hoffe, dass andere das gleiche tun.
I'm giving mine, I'm doing my best
hoping the other will do the same
716
01:11:31,921 --> 01:11:36,278
Wir haben eine harte Arbeit vor uns,
um den Lauf der Dinge zu ändern.
it's going to be hard work
for things …Run Code Online (Sandbox Code Playgroud) 我有一个包含一些 HTML 和一些文本的文件,我只想使用文本行。
我在玩弄grep,试图找到一种方法来排除以 HTML 标记开头的行,甚至是在标记前包含空格的行。
不知何故这对我有用,但我认为它不应该:
grep '^\<' file.htm
它只是向我显示没有 html 的行。你能解释一下为什么吗?我想我需要grep -v一些.*地方来完成这项工作。
我有一堆 jpeg 图像。说001abcd.jpg,,
002abcd.jpg等等。
我想捕获文件名并将其作为文本添加到图像本身的一个角落。因此,结果将是,例如,该文件003abcd.jpg将在该图像的一个角印上“003abcd”。(扩展名不必在那里。)
我想要一个可以批量处理数百张图像并在其各自的图像中添加自己的文件名的终端命令。
我正在使用 Linux Mint 17。
有人告诉我 imagemagick 可能很有用,但我不知道脚本。
在所有图像中放置一个通用文本很容易。但我不知道如何一次性将唯一的文件名作为相应图像中的文本。
我有一个 html 文件,在 URL 中有很多 % 编码的 UTF-8 文本。
例如“%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B”代表“???????” (俄语中的“资源”)。
任务是用可读的 UTF-8 文本替换所有此类子字符串。
为了简化任务,我们可以考虑%文件中没有其他符号用法。字母数字可以是大写也可以是小写。
我怀疑这可以用优雅来完成sed,perl,awk或东西,但不知道怎么办。
这个网络应用程序似乎可以通过粘贴在那里的文本来解决问题。
text ×10
files ×2
unicode ×2
application ×1
cat ×1
command-line ×1
diff ×1
file-command ×1
file-types ×1
grep ×1
html ×1
imagemagick ×1
linux ×1
locale ×1
shell-script ×1
terminal ×1
tr ×1
vimdiff ×1
whitespace ×1