我是熊猫的新手。我的 df 看起来像这样:
A A A B B B
a NaN NaN 2 NaN NaN 5
b NaN 1 NaN 9 NaN NaN
c 3 NaN NaN 7 NaN
Run Code Online (Sandbox Code Playgroud)
我怎样才能得到
A B
a 2 5
b 1 9
c 3 7
Run Code Online (Sandbox Code Playgroud)
看起来合并、连接是针对多个数据帧的。我也试过
df.groupby(by=[A,B], axis=1)
Run Code Online (Sandbox Code Playgroud)
但得到
ValueError: Grouper and axis must be same length
Run Code Online (Sandbox Code Playgroud) 我制作了一个 8100000 字节的字典列表,其中包含 900 万多个元素。每个元素都有一个包含 32 对值和键的字典,尽管在每个元素中使用相同的键集。
我想保存它以备将来分析。我已经尝试过 dill.dump,但是我不得不中断内核花了很长时间(超过 1 小时)。这应该是快速而简单的,对吧?
这是我尝试过的:
import dill
output_file=open('result_list', 'wb')
dill.dump(result_list, output_file)
output_file.close()
Run Code Online (Sandbox Code Playgroud)
我也试过泡菜和 bzip2
import bz2
import pickle
output_file=bz2.BZ2File('result_list', 'w')
pickle.dump(result_list, output_file)
Run Code Online (Sandbox Code Playgroud)
但是遇到了内存错误。
有关使此操作可行且耗时更少的任何提示?谢谢!