小编ins*_*ess的帖子

从文件中提取数据并操作内容以写入新文件

我有一个 csv 文件,我从中提取了与我相关的数据。这些一方面是参考编号,另一方面是字母 G、A、T 和 C 形式的遗传信息。

内容.csv:

1,S188823,188823,,,,ACTCTCGA,,CTGTACCA,ID23,
1,S189843,189843,,,,ACCCTGGA,,CTTGTACA,ID23,
...
Run Code Online (Sandbox Code Playgroud)

与我相关的信息是188823,,,,ACCCTGGA,,CTTGTACA 来自每一行。在此过程中必须删除重复项。前两行也必须被截断。

这就是我目前所做的:

cat File.csv | cut -d "," -f 3,9,7 | uniq | sed -e '1d' -e '2d'
Run Code Online (Sandbox Code Playgroud)

结果如下所示:

188823,ACTCTCGA,CTGTACCA
189843,ACCCTGGA,CTTGTACA
...
Run Code Online (Sandbox Code Playgroud)

但现在有两件事必须做,我没有做到。字段 3 和字段 2 必须交换

188823,CTGTACCA,ACTCTCGA
189843,CTTGTACA,ACCCTGGA
...
Run Code Online (Sandbox Code Playgroud)

现在从 field2 开始,碱基必须“反向互补”。这意味着每个 A 变成 T,每个 C 变成 G,每个 G 变成 C,每个 T 变成 A,序列顺序颠倒。于是,CTGTACCA变成TGGTACAG

最终结果必须如下所示:

188823,TGGTACAG,ACTCTCGA
188823,TGTACAAG,ACCCTGGA
Run Code Online (Sandbox Code Playgroud)

我希望这是可以理解的,你可以帮助我。可以在此处找到有关反向补充构建的一些帮助: revcomp builder online

awk text-processing bioinformatics

2
推荐指数
1
解决办法
191
查看次数

标签 统计

awk ×1

bioinformatics ×1

text-processing ×1