Pandas数据框架来自字典

Question

Pandas数据框架来自字典

我有一个用户项评级的python字典,如下所示:

sample={'user1': {'item1': 2.5, 'item2': 3.5, 'item3': 3.0, 'item4': 3.5, 'item5': 2.5, 'item6': 3.0}, 
'user2': {'item1': 2.5, 'item2': 3.0, 'item3': 3.5, 'item4': 4.0}, 
'user3': {'item2':4.5,'item5':1.0,'item6':4.0}}

Run Code Online (Sandbox Code Playgroud)

我想把它转换成一个结构相似的熊猫数据框架

     col1   col2  col3
0   user1  item1   2.5
1   user1  item2   3.5
2   user1  item3   3.0
3   user1  item4   3.5
4   user1  item5   2.5
5   user1  item6   3.0
6   user2  item1   2.5
7   user2  item2   3.0
8   user2  item3   3.5
9   user2  item4   4.0
10  user3  item2   4.5
11  user3  item5   1.0
12  user3  item6   4.0

Run Code Online (Sandbox Code Playgroud)

任何想法将不胜感激:)

Answer 1

fal*_*tru 19

请尝试以下代码:

import pandas

sample={'user1': {'item1': 2.5, 'item2': 3.5, 'item3': 3.0, 'item4': 3.5, 'item5': 2.5, 'item6': 3.0},
        'user2': {'item1': 2.5, 'item2': 3.0, 'item3': 3.5, 'item4': 4.0},
        'user3': {'item2':4.5,'item5':1.0,'item6':4.0}}

df = pandas.DataFrame([
    [col1,col2,col3] for col1, d in sample.items() for col2, col3 in d.items()
])

Run Code Online (Sandbox Code Playgroud)

Answer 2

DSM*_*DSM 13

我认为你所追求的操作 - 将表格取消 - 被称为"融化".在这种情况下,硬件可以通过完成pd.melt,其他一切基本上都是重命名和重新排序:

df = pd.DataFrame(sample).reset_index().rename(columns={"index": "item"})
df = pd.melt(df, "item", var_name="user").dropna()
df = df[["user", "item", "value"]].reset_index(drop=True)

Run Code Online (Sandbox Code Playgroud)

简单地调用DataFrame会生成具有我们想要的信息但形状错误的东西:

>>> df = pd.DataFrame(sample)
>>> df
       user1  user2  user3
item1    2.5    2.5    NaN
item2    3.5    3.0    4.5
item3    3.0    3.5    NaN
item4    3.5    4.0    NaN
item5    2.5    NaN    1.0
item6    3.0    NaN    4.0

Run Code Online (Sandbox Code Playgroud)

因此,让我们将索引提升为真正的列并改进名称:

>>> df = pd.DataFrame(sample).reset_index().rename(columns={"index": "item"})
>>> df
    item  user1  user2  user3
0  item1    2.5    2.5    NaN
1  item2    3.5    3.0    4.5
2  item3    3.0    3.5    NaN
3  item4    3.5    4.0    NaN
4  item5    2.5    NaN    1.0
5  item6    3.0    NaN    4.0

Run Code Online (Sandbox Code Playgroud)

然后我们可以打电话pd.melt来转动列.如果我们没有指定我们想要的变量名称"user",它会给它带来无聊的"变量"名称(就像它给数据本身提供无聊的名称"value").

>>> df = pd.melt(df, "item", var_name="user").dropna()
>>> df
     item   user  value
0   item1  user1    2.5
1   item2  user1    3.5
2   item3  user1    3.0
3   item4  user1    3.5
4   item5  user1    2.5
5   item6  user1    3.0
6   item1  user2    2.5
7   item2  user2    3.0
8   item3  user2    3.5
9   item4  user2    4.0
13  item2  user3    4.5
16  item5  user3    1.0
17  item6  user3    4.0

Run Code Online (Sandbox Code Playgroud)

最后,我们可以重新排序和重新编号索引:

>>> df = df[["user", "item", "value"]].reset_index(drop=True)
>>> df
     user   item  value
0   user1  item1    2.5
1   user1  item2    3.5
2   user1  item3    3.0
3   user1  item4    3.5
4   user1  item5    2.5
5   user1  item6    3.0
6   user2  item1    2.5
7   user2  item2    3.0
8   user2  item3    3.5
9   user2  item4    4.0
10  user3  item2    4.5
11  user3  item5    1.0
12  user3  item6    4.0

Run Code Online (Sandbox Code Playgroud)

melt一旦你习惯它就非常有用.通常,在这里,您可以在之前和之后进行一些重命名/重新排序.

Answer 3

Bou*_*oud 5

我在这提供另一种可能性pd.stack:

df = pd.DataFrame(sample)
df = df.T.stack().reset_index()

Run Code Online (Sandbox Code Playgroud)

详细解释

In [24]: df = pd.DataFrame(sample)

In [25]: df
Out[25]: 
       user1  user2  user3
item1    2.5    2.5    NaN
item2    3.5    3.0    4.5
item3    3.0    3.5    NaN
item4    3.5    4.0    NaN
item5    2.5    NaN    1.0
item6    3.0    NaN    4.0

Run Code Online (Sandbox Code Playgroud)

应用stack将在已经索引的行轴的子级上旋转列轴item.如您所愿,user首先使用.T以下命令对转置的DataFrame执行操作:

In [34]: df = df.T.stack()

In [35]: df
Out[35]: 
user1  item1    2.5
       item2    3.5
       item3    3.0
       item4    3.5
       item5    2.5
       item6    3.0
user2  item1    2.5
       item2    3.0
       item3    3.5
       item4    4.0
user3  item2    4.5
       item5    1.0
       item6    4.0
dtype: float64

Run Code Online (Sandbox Code Playgroud)

您期望基本列而不是索引,因此只需重置索引:

In [36]: df = df.reset_index()

In [37]: df
Out[37]: 
   level_0 level_1    0
0    user1   item1  2.5
1    user1   item2  3.5
2    user1   item3  3.0
3    user1   item4  3.5
4    user1   item5  2.5
5    user1   item6  3.0
6    user2   item1  2.5
7    user2   item2  3.0
8    user2   item3  3.5
9    user2   item4  4.0
10   user3   item2  4.5
11   user3   item5  1.0
12   user3   item6  4.0

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，10 月前
查看次数：	29306 次
最近记录：	12 年，10 月前