嵌套字典到多索引数据框,其中字典键是列标签

Question

嵌套字典到多索引数据框,其中字典键是列标签

pbr*_*ach 36 python dictionary multi-index dataframe pandas

假设我有一个如下所示的字典:

dictionary = {'A' : {'a': [1,2,3,4,5],
                     'b': [6,7,8,9,1]},

              'B' : {'a': [2,3,4,5,6],
                     'b': [7,8,9,1,2]}}

Run Code Online (Sandbox Code Playgroud)

我想要一个看起来像这样的数据帧:

Run Code Online (Sandbox Code Playgroud)

有没有方便的方法来做到这一点？如果我尝试:

In [99]:

DataFrame(dictionary)

Out[99]:
     A               B
a   [1, 2, 3, 4, 5] [2, 3, 4, 5, 6]
b   [6, 7, 8, 9, 1] [7, 8, 9, 1, 2]

Run Code Online (Sandbox Code Playgroud)

我得到一个数据框,其中每个元素都是一个列表.我需要的是一个多索引,其中每个级别对应于嵌套字典中的键和对应于列表中每个元素的行,如上所示.我想我可以做一个非常粗糙的解决方案,但我希望可能会有一些更简单的东西.

Answer 1

Bre*_*arn 56

Pandas希望MultiIndex值为元组,而不是嵌套的dicts.最简单的方法是在尝试将字典传递给DataFrame之前将字典转换为正确的格式:

>>> reform = {(outerKey, innerKey): values for outerKey, innerDict in dictionary.iteritems() for innerKey, values in innerDict.iteritems()}
>>> reform
{('A', 'a'): [1, 2, 3, 4, 5],
 ('A', 'b'): [6, 7, 8, 9, 1],
 ('B', 'a'): [2, 3, 4, 5, 6],
 ('B', 'b'): [7, 8, 9, 1, 2]}
>>> pandas.DataFrame(reform)
   A     B   
   a  b  a  b
0  1  6  2  7
1  2  7  3  8
2  3  8  4  9
3  4  9  5  1
4  5  1  6  2

[5 rows x 4 columns]

Run Code Online (Sandbox Code Playgroud)

@Zhubarb：您期望生成的 DataFrame 是什么样子？DataFrame 必须是矩形的；它不能有不同长度的列。 (3认同)
上面的解决方案仅适用于python 3.5及更高版本,如果`.iteritems()`被`.items()`替换 (3认同)
这很棒。仅供参考，如果`values` 是“记录”的形式，也可以使用`pd.DataFrame.from_dict` 来完成：`[{'a': 1, 'b': 2}, {'a': 3, 'b': 4}, ...]` (3认同)
+1，但是如果字典值列表的长度（例如在此特定示例中为 5）不匹配，则这不起作用。有什么想法可以解决这个问题吗？例如，如果`reform= ('A', 'a'): [1, 2, 3, 4, 5], ('A', 'b'): [6, 7, 8, 9,]` (2认同)

Answer 2

Vir*_*ira 18

这个答案有点晚了，但是......

您正在寻找以下功能.stack：

df = pandas.DataFrame.from_dict(dictionary, orient="index").stack().to_frame()
# to break out the lists into columns
df = pd.DataFrame(df[0].values.tolist(), index=df.index)

Run Code Online (Sandbox Code Playgroud)

Answer 3

小智 12

dict_of_df = {k: pd.DataFrame(v) for k,v in dictionary.items()}
df = pd.concat(dict_of_df, axis=1)

Run Code Online (Sandbox Code Playgroud)

请注意,对于python <3.6,列的顺序会丢失

归档时间：	11 年，3 月前
查看次数：	22062 次
最近记录：	7 年，8 月前