解释手册中的段落

Art*_*tem 2 regex bioinformatics fasta

我正在尝试运行一些生物信息学软件(TE Displayer),但它根本不起作用.我认为问题可能在于软件如何识别FASTA标头.从文档中可以看出这一点.

标题行中的序列标识符采用"\ w(1,10)\ d(2,9)"的模式,表示"单词字符(1-10)后跟数字(2-9)",因此请尽量避免标题行中的非标识符短语(例如"Build04").例如标题行"> OrganismX Accession AC000282,build0.4"很好,但不是"> OrganismX Contig WX000282,Build04".因此,"> Oryza sativa Chromosome11"也会很好,因为"Chromosome11"将被识别为标识符.

有人可以解释"\ w(1,10)\ d(2,9)"的确切用法我理解为总共最多12个字符的任何单词但它必须以两位数结尾.所以我不明白Build0.4如何正常,而Build04不是很好.

干杯!

Mik*_*keM 5

单独序列标识符应该匹配的模式,所以">OrganismX Accession AC000282, build0.4",其AC000282必须由正则表达式匹配,没有Build0.4.

\w(1,10)\d(2,9)表示从一到十个单词字符匹配,即任意一个a-z A-Z 0-9 _,后跟两到九个数字.

因为Build04将与该模式匹配并且它不是序列标识符,所以建议避免使用. build0.4将不匹配该模式,因为它包含一个.,所以它很好.