小编Jan*_*ana的帖子

连接具有相同标题的多个文件

我有多个文件,它们具有相同的标头和下面的不同向量。我需要连接所有这些,但我只想连接第一个文件的标题,我不希望连接其他标题,因为它们都是相同的。

例如:file1.txt

<header>INFO=<ID=DP,Number=1,Type=Integer>
<header>INFO=<ID=DP4,Number=4,Type=Integer>
A
B 
C
Run Code Online (Sandbox Code Playgroud)

文件2.txt

<header>INFO=<ID=DP,Number=1,Type=Integer>
<header>INFO=<ID=DP4,Number=4,Type=Integer>
D
E 
F
Run Code Online (Sandbox Code Playgroud)

我需要输出

<header>INFO=<ID=DP,Number=1,Type=Integer>
<header>INFO=<ID=DP4,Number=4,Type=Integer>
A
B
C
D
E 
F
Run Code Online (Sandbox Code Playgroud)

我可以在 R 中编写脚本,但我需要在 shell 中使用它?

shell-script text-processing

34
推荐指数
3
解决办法
8万
查看次数

根据模式删除行,但保留匹配的前 n 行

我需要根据模式从文本文件中删除行,但我需要保留与模式匹配的前 n 行。

输入

% 1 
% 2
% 3
% 4
% 5
text1
text2
text3
Run Code Online (Sandbox Code Playgroud)

输出

%1
%2
text1
text2
text3
Run Code Online (Sandbox Code Playgroud)

我使用了sed /^%/d文件,但它删除了所有以 % 开头的行,sed 3,/^%/d也不起作用。我需要保留模式的前 n 行并删除其余的

sed awk text-processing

9
推荐指数
1
解决办法
7154
查看次数

连接子目录下的多个文件

我的目录结构如下

x:\Project_2012-158A\Sample_4041

SampleSheet.csv
4041_CGTACG_L002_R1_001.fastq
4041_CGTACG_L002_R2_001.fastq
4041_CGTACG_L006_R2_001.fastq
4041_CGTACG_L006_R1_001.fastq
Run Code Online (Sandbox Code Playgroud)

x:\Project_2012-158A\Sample_4027

SampleSheet.csv
4027_TAGCTT_L002_R2_001.fastq
4027_TAGCTT_L006_R1_001.fastq
4027_TAGCTT_L002_R1_001.fastq
4027_TAGCTT_L006_R2_001.fastq
Run Code Online (Sandbox Code Playgroud)

x:\Project_2012-158A\Sample_D425

SampleSheet.csv
D425_ACTGAT_L008_R2_001.fastq
D425_ACTGAT_L008_R1_001.fastq
D425_ACTGAT_L004_R2_001.fastq
D425_ACTGAT_L004_R1_001.fastq
Run Code Online (Sandbox Code Playgroud)

我想为每个样本分别将文件与“R1”和“R2”连接起来。我知道

cat file1.fastq file2.fastq > concatenation.fastq 
Run Code Online (Sandbox Code Playgroud)

将提供 concatenate 但我如何使用单个脚本为所有 sudirectories 执行此操作?

linux command-line scripting shell-script

5
推荐指数
1
解决办法
9597
查看次数