我有一个序列文件,想用它的出现位置和长度来计算连续字符“N” 假设我有一个mySequence.fasta
像这样命名的文件:
>sequence-1
ATCGCTAGCATNNNNNNNNNNNNNNCTAGCATCATGCNNNNNNATACGCATCACANNNNNNNNNCgcatATCAC
Run Code Online (Sandbox Code Playgroud)
和预期的输出应该是这样的:
Position 12 N 14
Position 38 N 6
Position 56 N 9
Run Code Online (Sandbox Code Playgroud)
请帮助我通过awk
或sed
提供我的文件名来解决这个问题mySequence.fasta