标签: text

如何从文本文件中删除特定符号的所有实例?

我有一个巨大的(大约半个 GiB,无法使用通常的文本编辑器)CSV 文件,其中的字段用双引号括起来,例如"abc","def"但需要一个不带引号的文件(我确信这不会破坏文件的一致性 -逗号从不在其中的值中使用)。

如何删除所有引号(不在其位置引入空格)?

text-processing text

13
推荐指数
2
解决办法
2万
查看次数

如何知道一个文本文件是否是另一个的子集

我试图找到一种方法来确定一个文本文件是否是另一个文件的子集。

例如:

foo
bar
Run Code Online (Sandbox Code Playgroud)

是一个子集

foo
bar
pluto
Run Code Online (Sandbox Code Playgroud)

尽管:

foo
pluto
Run Code Online (Sandbox Code Playgroud)

foo
bar
Run Code Online (Sandbox Code Playgroud)

不是彼此的子集...

有没有办法用命令来做到这一点?

此检查必须是交叉检查,并且必须返回:

file1 subset of file2 :    True
file2 subset of file1 :    True
otherwise             :    False
Run Code Online (Sandbox Code Playgroud)

diff files file-comparison text vimdiff

13
推荐指数
1
解决办法
7178
查看次数

file命令如何区分文本和LaTeX文件?

我有许多文件(Jupyter 笔记本.ipynb),它们是文本文件。所有这些都包含一些 LaTeX 标记。但是当我运行时file,我得到:

$ file nb_*          
nb_1.ipynb:      ASCII text
nb_2.ipynb:      ASCII text
nb_3.ipynb:      ASCII text, with very long lines
nb_4.ipynb:      LaTeX document, ASCII text, with very long lines
nb_5.ipynb:      text, with very long lines
Run Code Online (Sandbox Code Playgroud)

file这些怎么区分?我希望所有文件都具有相同的类型。


(为什么文件应该有相同的类型?我将它们上传到在线系统进行共享。系统以某种方式对它们进行分类并以不同的方式对待它们,我不可能更改它。我怀疑该平台在内部使用file或可能使用libmagic和想解决这个问题。)

file-command files text text-formatting file-types

13
推荐指数
1
解决办法
1120
查看次数

如何在 bash 中将 UTF-8 txt 文件转换为全部大写?

我有一些 UTF-8 .txt 文件,我想将它们转换为全部大写。如果它只是 ASCII,我可以使用:

tr [:lower:] [:upper:]
Run Code Online (Sandbox Code Playgroud)

但由于我正在使用变音符号和其他东西,它似乎不起作用。我想如果我设置了适当的语言环境,它可能会起作用,但我需要这个脚本是可移植的。

unicode locale tr text

11
推荐指数
2
解决办法
5042
查看次数

如何从文本文件中删除所有英文行?

我有这个文本文件:

714
01:11:22,267 --> 01:11:27,731
Auch wenn noch viele Generationen auf einen Wechsel hoffen,
Even if it takes many generations hoping for a change,

715
01:11:27,732 --> 01:11:31,920
werde ich mein Bestes geben
und hoffe, dass andere das gleiche tun.
I'm giving mine, I'm doing my best
hoping the other will do the same

716
01:11:31,921 --> 01:11:36,278
Wir haben eine harte Arbeit vor uns, 
um den Lauf der Dinge zu ändern. 
it's going to be hard work
for things …
Run Code Online (Sandbox Code Playgroud)

text

11
推荐指数
2
解决办法
1677
查看次数

为什么这个 grep 语句与我期望的相反?

我有一个包含一些 HTML 和一些文本的文件,我只想使用文本行。

我在玩弄grep,试图找到一种方法来排除以 HTML 标记开头的行,甚至是在标记前包含空格的行。

不知何故这对我有用,但我认为它不应该:

grep '^\<' file.htm

它只是向我显示没有 html 的行。你能解释一下为什么吗?我想我需要grep -v一些.*地方来完成这项工作。

linux grep html whitespace text

11
推荐指数
1
解决办法
959
查看次数

源文件和脚本文件的彩色“cat”?

可能的重复:
如何在文件上显示语法突出显示?

有没有类似的应用程序cat,但有颜色输出?

我想使用任何 IDE 编辑器中的颜色查看我的文件。

terminal cat application text

10
推荐指数
1
解决办法
2948
查看次数

在图像文件的角落添加文件名作为文本

我有一堆 jpeg 图像。说001abcd.jpg,, 002abcd.jpg等等。

我想捕获文件名并将其作为文本添加到图像本身的一个角落。因此,结果将是,例如,该文件003abcd.jpg将在该图像的一个角印上“003abcd”。(扩展名不必在那里。)

我想要一个可以批量处理数百张图像并在其各自的图像中添加自己的文件名的终端命令。

我正在使用 Linux Mint 17。

有人告诉我 imagemagick 可能很有用,但我不知道脚本。

在所有图像中放置一个通用文本很容易。但我不知道如何一次性将唯一的文件名作为相应图像中的文本。

shell-script imagemagick image-manipulation text

10
推荐指数
2
解决办法
6779
查看次数

如何用纯 UTF-8 文本替换所有百分比编码的 UTF-8 子字符串?

我有一个 html 文件,在 URL 中有很多 % 编码的 UTF-8 文本。

例如“%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B”代表“???????” (俄语中的“资源”)。

任务是用可读的 UTF-8 文本替换所有此类子字符串。

为了简化任务,我们可以考虑%文件中没有其他符号用法。字母数字可以是大写也可以是小写。

我怀疑这可以用优雅来完成sedperlawk或东西,但不知道怎么办。

这个网络应用程序似乎可以通过粘贴在那里的文本来解决问题。

character-encoding text-processing unicode text

9
推荐指数
2
解决办法
3211
查看次数

9
推荐指数
2
解决办法
772
查看次数