我正在尝试将几个文件加载到内存中.这些文件具有以下3种格式之一:
实际上,它们是ngram静态文件,以防这有助于解决方案.例如:
i_love TAB 10
love_you TAB 12
Run Code Online (Sandbox Code Playgroud)
目前,我正在做的伪代码是
loadData(file):
data = {}
for line in file:
first, second = line.split('\t')
data[first] = int(second) #or float(second)
return data
Run Code Online (Sandbox Code Playgroud)
令我惊讶的是,虽然磁盘中文件的总大小约为21 MB,但当加载到内存中时,该过程需要120 - 180 MB的内存!(整个python应用程序不会将任何其他数据加载到内存中).
只有不到10个文件,大多数文件在大约50-80k行保持稳定,除了一个目前有数百万行的文件.
所以我想要一个技术/数据结构来减少内存消耗:
非常感谢你.我期待着你的建议.