我的问题如下:file(1) 和 magic(5) :描述其他格式。
我想描述一个 FASTA 序列(http://en.wikipedia.org/wiki/FASTA_format)
它可能是一个DNA 序列(只有 ATGC)
>header
ATGCTAGCATAGCATCGATGCTGTAGCTACGTAGCTACGTCTACG
Run Code Online (Sandbox Code Playgroud)
一个“神奇”的模式将是
>.*\n[ATGC]*
Run Code Online (Sandbox Code Playgroud)
或蛋白质序列(也包含 ATGC 的 ACDEFGHIKLMNPQRSTVWYBZX)
>header
AHITKLMNPQRGHIKLMNPQRC
Run Code Online (Sandbox Code Playgroud)
一个“神奇”的模式将是
>.*\n[ACDEFGHIKLMNPQRSTVWYBZX]*
Run Code Online (Sandbox Code Playgroud)
但是每当我使用这些正则表达式时,文件都会告诉我它是一种蛋白质,因为它与第二个正则表达式匹配。有没有办法对结果进行优先排序?有没有办法优先考虑,比如“如果匹配,不要尝试任何其他模式?”。
我爱file
。我每天使用它多次。我非常喜欢它,所以我在我的 Windows 机器上安装了 Cygwin,这样我就可以使用它了。无论如何,在查看系统上的旧文件时,我发现有许多文件只是从file
命令报告“数据” 。可以理解。
然而,其中一些文件在它们的文件头中有一个指示符,指示它们是什么类型的文件,但在魔法文件数据库中还没有找到。我的问题有三点:
提前感谢您的帮助。