我正在尝试编辑多个文件的 fasta 标题,以删除正斜杠及其后的所有内容(只要“它之后的所有内容”等于或小于 10 个字符)。标题行用“>”标记。
for i in ./*.fa;do sed -r 's/(>.*)\/.\{,10\}\n/\1\n/' "$i"; done
Run Code Online (Sandbox Code Playgroud)
我也试过
for i in ./*.fa;do sed -r 's/(>.*)\/.{,10}\n/\1\n/' "$i"; done
Run Code Online (Sandbox Code Playgroud)
但似乎并没有更好。我的预感是 {,10} 量词会破坏事物。我不确定。帮助将不胜感激!
例如,如果以下内容在文件中:
>header1_some_extra_data_here/1-1000
ATGCGGGTACCCCA
>code/header2_some_extra_data
AGGTCCCCGGGAAAAA
Run Code Online (Sandbox Code Playgroud)
我希望以下是输出:
>header1_some_extra_data_here
ATGCGGGTACCCCA
>code/header2_some_extra_data
AGGTCCCCGGGAAAAA
Run Code Online (Sandbox Code Playgroud)