小编pet*_*rpm的帖子

python中的正则表达式跳过前两行的字符

我有一个看起来像这样的文本文件

Name     #Variants  #Cases  #Controls

CNGA3   5   5   0
GPR125  4   3   0
IGHMBP2 4   4   0
STK11IP 4   4   0
ACAD9   3   3   0
ANKRD17 3   3   0
Run Code Online (Sandbox Code Playgroud)

我想解析这个文件并将所有的基因名称(name列)返回到列表中list_of_genes,或类似的东西.

我有以下代码

gene_list = []
for i in range (6, 7):
    run_file = open('run_{}_results.txt'.format(i))
    gene = re.compile('[^\s]*', re.I)
    for line in run_file:
        match=gene.match(line, re.IGNORECASE)
        if match:
            matched_gene = match.group()
            gene_list.append(matched_gene)
Run Code Online (Sandbox Code Playgroud)

当我运行该代码时,我得到的结果是

['GA3', 'R125', 'HMBP2', 'K11IP', 'AD9', 'KRD17']
Run Code Online (Sandbox Code Playgroud)

正则表达式正在跳过每个基因的前两个字符,我无法弄清楚原因.

python regex expression

3
推荐指数
1
解决办法
192
查看次数

标签 统计

expression ×1

python ×1

regex ×1