我有几个大文本文件,在文件中UNIQS.txt
我有一个grep
来自另一个文件的字符串列表。我使用的代码是
grep -f UNIQS.txt EEP_VSL.uniqs.sam > UNIQ_templates.sam
Run Code Online (Sandbox Code Playgroud)
什么都不做 - 生成的文件是空的。但是当我这样做时
grep -F -f UNIQS.txt EEP_VSL.uniqs.sam > UNIQ_templates.sam
Run Code Online (Sandbox Code Playgroud)
它工作正常。这让我感到困惑,因为我认为grep
不会将条目解释UNIQS.txt
为没有引号和斜杠等的正则表达式模式在文件中(没有)。一般来说,如果您从文件中获取模式,那么它会自动认为它们是正则表达式模式吗?
编辑:在UNIQS.txt
文件中,有表单的换行符分隔字符串
HWI-ST365:215:D0GH0ACXX:2:1101:10034:186783
Run Code Online (Sandbox Code Playgroud)
(称为模板名称)和文件EEP_VSL...
制表符分隔的列,大约有14列,第一列是模板名称,所以基本上我想提取文件中每个模板对应的行。
我有一个需要处理的大文件,在编写了一些似乎无法正常工作的脚本后,我发现文件中的一小部分行实际上是空格分隔而不是制表符分隔。
问题:我想知道将这些空格分隔的行更改为制表符分隔的行的最佳方法是什么?
该文件每行包含 4 个条目,总共大约 5000 个条目,其中大约 150 个条目是空格分隔而不是制表符分隔的。