如何使用Python将文本文件读入列表或数组

use*_*744 133 python arrays text list

我试图将文本文件的行读入python中的列表或数组.我只需要能够在创建后单独访问列表或数组中的任何项目.

文本文件的格式如下:

0,0,200,0,53,1,0,255,...,0.
Run Code Online (Sandbox Code Playgroud)

如果在...上面,那么实际的文本文件有数百或数千个项目.

我正在使用以下代码尝试将文件读入列表:

text_file = open("filename.dat", "r")
lines = text_file.readlines()
print lines
print len(lines)
text_file.close()
Run Code Online (Sandbox Code Playgroud)

我得到的输出是:

['0,0,200,0,53,1,0,255,...,0.']
1
Run Code Online (Sandbox Code Playgroud)

显然,它将整个文件读入只有一个项目的列表,而不是单个项目的列表.我究竟做错了什么?

use*_*281 129

python的file.readLines()方法返回文件中的行列表:

f = open('file_name.ext', 'r')
x = f.readlines()
f.close()
Run Code Online (Sandbox Code Playgroud)

现在你应该能够遍历x行数组.

如果您想使用该文件而不必记得以后关闭它,请执行以下操作:

with open('file_name.ext', 'r') as f:
    x = f.readlines()
Run Code Online (Sandbox Code Playgroud)

  • 您可能希望用`x = f.read().splitlines()`替换最后一行以避免包含换行符(\n) - 如本文所述:/sf/answers/1452932351/ 436794 (42认同)
  • 任何略读此内容的人-请注意上面的Pierz,不要浪费一个小时来思考为什么由于\ n导致可能错误编号的子字符串列表而导致对数组的split()失败了! (2认同)

Ach*_*ome 122

您必须使用将字符串拆分为值列表 split()

所以,

lines = text_file.read().split(',')
Run Code Online (Sandbox Code Playgroud)

  • 我认为这个答案可以更好......如果你考虑一个多行“.csv”文件(如OP所述),例如,一个包含字母字符3行的文件(“a,b,c”,“ d,e,f` 等)并应用上述过程,您得到的列表如下:`['a', 'b', 'c\nd', 'e', ... ]` (请注意项目“c\nd”)。我想补充一点,尽管存在上述问题,此过程会折叠单个大型列表中各个行的数据,这通常不是我在处理面向记录的数据文件时想要的。 (3认同)
  • 当我第一次尝试这个时,我收到了以下消息:"attributeerror'list'对象没有属性'split'",但是当我更改readlines阅读时(在Google搜索之后),它运行正常.谢谢. (2认同)
  • @UpSampler是的,完全支持`.split()`方法,它就在这里.在我上面的评论中,我说`string`模块已被弃用......好吧我完全错了!请接受我对于混淆的道歉:它只是在Python 2中弃用的一些函数(其中包括`string.split()`)并在Python 3中被删除(是的,在这里没有`split()`函数Python的`string`模块3). (2认同)

Thi*_*iru 37

您也可以使用numpy loadtxt

from numpy import loadtxt
lines = loadtxt("filename.dat", comments="#", delimiter=",", unpack=False)
Run Code Online (Sandbox Code Playgroud)

  • 这对于通过 `dtype : data-type` 参数指定格式也很有用。https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html Pandas read_csv 非常好用。但我没有看到指定格式的方法。它正在从我的文件中读取浮点数,而我需要字符串。感谢@Thiru 显示loadtxt。 (4认同)
  • 我也需要这个 我注意到在 Raspberry Pi 上 numpy 的工作速度非常慢。对于这个应用程序,我恢复打开一个文件并逐行读取它。 (2认同)

gbo*_*ffi 16

所以你想创建一个列表列表......我们需要从一个空列表开始

list_of_lists = []
Run Code Online (Sandbox Code Playgroud)

接下来,我们逐行阅读文件内容

with open('data') as f:
    for line in f:
        inner_list = [elt.strip() for elt in line.split(',')]
        # in alternative, if you need to use the file content as numbers
        # inner_list = [int(elt.strip()) for elt in line.split(',')]
        list_of_lists.append(inner_list)
Run Code Online (Sandbox Code Playgroud)

一个常见的用例是柱状数据,但我们的存储单元是文件的行,我们已逐一阅读,因此您可能想要转置 列表列表.这可以通过以下习语来完成

by_cols = zip(*list_of_lists)
Run Code Online (Sandbox Code Playgroud)

另一个常见用途是为每列提供一个名称

col_names = ('apples sold', 'pears sold', 'apples revenue', 'pears revenue')
by_names = {}
for i, col_name in enumerate(col_names):
    by_names[col_name] = by_cols[i]
Run Code Online (Sandbox Code Playgroud)

这样您就可以对同类数据项进行操作

 mean_apple_prices = [money/fruits for money, fruits in
                     zip(by_names['apples revenue'], by_names['apples_sold'])]
Run Code Online (Sandbox Code Playgroud)

我写的大部分内容都可以使用csv标准库中的模块加速.另一个第三方模块是pandas,它允许您自动化典型数据分析的大多数方面(但具有许多依赖性).


更新虽然在Python 2中zip(*list_of_lists)返回一个不同的(转置的)列表列表,但在Python 3中情况已经改变并zip(*list_of_lists)返回一个不可订阅的zip对象.

如果您需要索引访问,则可以使用

by_cols = list(zip(*list_of_lists))
Run Code Online (Sandbox Code Playgroud)

它为您提供了两个版本的Python列表.

另一方面,如果你不需要索引访问,你想要的只是建立一个由列名索引的字典,一个zip对象就好了......

file = open('some_data.csv')
names = get_names(next(file))
columns = zip(*((x.strip() for x in line.split(',')) for line in file)))
d = {}
for name, column in zip(names, columns): d[name] = column
Run Code Online (Sandbox Code Playgroud)


Bla*_*g23 7

这个问题是问如何将文件中的逗号分隔值内容读取到可迭代列表中:

0,0,200,0,53,1,0,255,...,0.

最简单的方法是使用csv模块,如下所示:

import csv
with open('filename.dat', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',')
Run Code Online (Sandbox Code Playgroud)

现在,您可以spamreader像这样轻松地迭代:

for row in spamreader:
    print(', '.join(row))
Run Code Online (Sandbox Code Playgroud)

有关更多示例,请参阅文档