use*_*890 7 python serialization load dump pickle
我在一个名为b1.pkl的文件中有一个pickle对象:
$ ls -l b*
-rw-r--r-- 1 fireball staff 64743950 Oct 11 15:32 b1.pkl
Run Code Online (Sandbox Code Playgroud)
然后我运行以下python代码来加载对象并将其转储到一个新文件:
import numpy as np
import cPickle as pkl
fin = open('b1.pkl', 'r')
fout = open('b2.pkl', 'w')
x = pkl.load(fin)
pkl.dump(x, fout)
fin.close()
fout.close()
Run Code Online (Sandbox Code Playgroud)
此代码创建的文件大于两倍:
$ ls -l b*
-rw-r--r-- 1 fireball staff 64743950 Oct 11 15:32 b1.pkl
-rw-r--r-- 1 fireball staff 191763914 Oct 11 15:47 b2.pkl
Run Code Online (Sandbox Code Playgroud)
任何人都可以解释为什么新文件比原始文件大得多?它应该包含完全相同的结构.
很可能您的原始文件b1.pkl是使用更有效的协议模式(1 或 2)挑选出来的。所以你的文件开始时更小。
当您使用 cPickle 加载时,它会自动从文件中为您检测协议。但是,当您使用默认参数再次将其转储时,它将使用更大的协议 0。它这样做是为了便携性/兼容性。您需要明确请求二进制协议。
import numpy as np
import cPickle
# random data
s = {}
for i in xrange(5000):
s[i] = np.random.randn(5,5)
# pickle it out the first time with binary protocol
with open('data.pkl', 'wb') as f:
cPickle.dump(s, f, 2)
# read it back in and pickle it out with default args
with open('data.pkl', 'rb') as f:
with open('data2.pkl', 'wb') as o:
s = cPickle.load(f)
cPickle.dump(s, o)
$ ls -l
1174109 Oct 11 16:05 data.pkl
3243157 Oct 11 16:08 data2.pkl
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2974 次 |
| 最近记录: |