小编xia*_*hir的帖子

如何加入数据框中共享相同名称的列

我是熊猫的新手。我的 df 看起来像这样:

  A   A   A   B   B   B
a NaN NaN 2   NaN NaN 5
b NaN 1   NaN 9   NaN NaN
c 3   NaN     NaN 7   NaN
Run Code Online (Sandbox Code Playgroud)

我怎样才能得到

  A   B 
a 2   5
b 1   9 
c 3   7
Run Code Online (Sandbox Code Playgroud)

看起来合并、连接是针对多个数据帧的。我也试过

df.groupby(by=[A,B], axis=1)
Run Code Online (Sandbox Code Playgroud)

但得到

ValueError: Grouper and axis must be same length
Run Code Online (Sandbox Code Playgroud)

python join duplicates pandas

3
推荐指数
1
解决办法
5132
查看次数

为什么 dill.dump 的字典列表(81,000,000 字节)需要永远?

我制作了一个 8100000 字节的字典列表,其中包含 900 万多个元素。每个元素都有一个包含 32 对值和键的字典,尽管在每个元素中使用相同的键集。

我想保存它以备将来分析。我已经尝试过 dill.dump,但是我不得不中断内核花了很长时间(超过 1 小时)。这应该是快速而简单的,对吧?

这是我尝试过的:

import dill
output_file=open('result_list', 'wb')
dill.dump(result_list, output_file)
output_file.close()
Run Code Online (Sandbox Code Playgroud)

我也试过泡菜和 bzip2

import bz2
import pickle
output_file=bz2.BZ2File('result_list', 'w')
pickle.dump(result_list, output_file)
Run Code Online (Sandbox Code Playgroud)

但是遇到了内存错误。

有关使此操作可行且耗时更少的任何提示?谢谢!

python dictionary dump large-files dill

0
推荐指数
1
解决办法
453
查看次数

标签 统计

python ×2

dictionary ×1

dill ×1

dump ×1

duplicates ×1

join ×1

large-files ×1

pandas ×1