小编M. *_*iro的帖子

在fasta文件中选择序列超过300 aa,"C"至少出现4次

我有一个包含蛋白质序列的fasta文件.我想选择超过300个氨基酸的序列,半胱氨酸(C)氨基酸出现超过4次.

我用这个命令来选择超过300 aa的序列:

 cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }'

Run Code Online (Sandbox Code Playgroud)

一些序列示例:

  >jgi|Triasp1|216614|CE216613_3477
 MPSLYLTSALGLLSLLPAAQAGWNPNSKDNIVVYWGQDAGSIGQNRLSYYCENAPDVDVI
 NISFLVGITDLNLNLANVGNNCTAFAQDPNLLDCPQVAADIVECQQTYGKTIMMSLFGST
 YTESGFSSSSTAVSAAQEIWAMFGPVQSGNSTPRPFGNAVIDGFDFDLEDPIENNMEPFA
 AELRSLTSAATSKKFYLSAAPQCVYPDASDESFLQGEVAFDWLNIQFYNNGCGTSYYPSG
 YNYATWDNWAKTVSANPNTKLLVGTPASVHAVNFANYFPTNDQLAGAISSSKSYDSFAGV
 MLWDMAQLFGNPGYLDLIVADLGGASTPPPPASTTLSTVTRSSTASTGPTSPPPSGGSVP
 QWGQCGGQGYTGPTQCQSPYTCVVESQWWSSCQ*

Run Code Online (Sandbox Code Playgroud)

linux awk sequences bioinformatics fasta

M. *_*iro

2018 05-07

3
推荐指数

1
解决办法

71
查看次数

删除重复项并保留包含一列最大值的行 - LINUX

每个人！

我想删除重复项并在具有 4 个字段的文件中保留一列（第 4 列）中具有最高值的行。我必须在 Linux 服务器上执行此操作。

前

gene  subj  e-value ident
  g1    h1    0.05   75.5
  g1    h2    0.03   60.6 
  g2    h7    0.00   80.5
  g2    h9    0.00   50.3
  g2    h4    0.03   90.7
  g3    h5    0.10   30.5
  g3    h8    0.00   76.8
  g4    h11   0.00   80.7

Run Code Online (Sandbox Code Playgroud)

后

gene  subj  e-value ident
  g1    h1    0.05   75.5
  g2    h4    0.03   90.7
  g3    h8    0.00   76.8
  g4    h11   0.00   80.7

Run Code Online (Sandbox Code Playgroud)

非常感谢，如果我重复问了一些问题，我很抱歉！但我没有找到我的问题的答案。

linux awk max duplicates

M. *_*iro

2017 08-07

1
推荐指数

1
解决办法

1035
查看次数

标签统计

awk ×2

linux ×2

bioinformatics ×1

duplicates ×1

fasta ×1

max ×1

sequences ×1

在fasta文件中选择序列超过300 aa,"C"至少出现4次

删除重复项并保留包含一列最大值的行 - LINUX

标签 统计

小编M. _iro的帖子

标签统计