按python中的第一（或第二，否则）列对文件排序

Question

按python中的第一（或第二，否则）列对文件排序

这似乎是一个非常基本的问题，但是我是python的新手，花了很长时间尝试自己寻找解决方案之后，我认为是时候问一些更高级的人了！

因此，我有一个文件（示例）：

ENSMUSG00000098737  95734911    95734973    3   miRNA
ENSMUSG00000077677  101186764   101186867   4   snRNA
ENSMUSG00000092727  68990574    68990678    11  miRNA
ENSMUSG00000088009  83405631    83405764    14  snoRNA
ENSMUSG00000028255  145003817   145032776   3   protein_coding
ENSMUSG00000028255  145003817   145032776   3   processed_transcript
ENSMUSG00000028255  145003817   145032776   3   processed_transcript
ENSMUSG00000098481  38086202    38086317    13  miRNA
ENSMUSG00000097075  126971720   126976098   7   lincRNA
ENSMUSG00000097075  126971720   126976098   7   lincRNA

Run Code Online (Sandbox Code Playgroud)

并且我需要编写一个具有所有相同信息的新文件，但按第一列排序。

到目前为止，我使用的是：

lines = open(my_file, 'r').readlines()
output = open("intermediate_alphabetical_order.txt", 'w')

for line in sorted(lines, key=itemgetter(0)):
    output.write(line)

output.close()

Run Code Online (Sandbox Code Playgroud)

它不会返回任何错误，而只是将输出文件写入与输入文件完全相同的位置。

我知道这肯定是一个非常基本的错误，但是如果你们中的一些人可以告诉我我做错了，那将是惊人的！

非常感谢！

编辑

我在打开文件时遇到了麻烦，因此有关已打开的数组的答案并没有真正的帮助。

Answer 1

Sup*_*Man 6

您遇到的问题是您没有将每一行变成一个列表。当您读入文件时，您只是将整行作为一个字符串。然后按每行的第一个字符进行排序，这在您的输入中始终是相同的字符'E'.

要仅按第一列排序，您需要拆分第一个块并阅读该部分。所以你的关键应该是这样的：

for line in sorted(lines, key=lambda line: line.split()[0]):

Run Code Online (Sandbox Code Playgroud)

split 会将您的行变成一个列表，然后从该列表中取出第一列。

Answer 2

lit*_*ird 5

如果输入文件用制表符分隔，则也可以使用csv模块。

import csv
from operator import itemgetter
reader = csv.reader(open("t.txt"), delimiter="\t")

for line in sorted(reader, key=itemgetter(0)):
    print(line)

Run Code Online (Sandbox Code Playgroud)

按第一列排序。

更改号码

key=itemgetter(0)

Run Code Online (Sandbox Code Playgroud)

用于按其他列排序。

归档时间：	10 年，7 月前
查看次数：	12405 次
最近记录：	7 年前