我有一个如下所示的数据框:
>>> import pandas
>>> df = pandas.DataFrame({'region' : ['east', 'west', 'south', 'west',
... 'east', 'west', 'east', 'west'],
... 'item' : ['one', 'one', 'two', 'three',
... 'two', 'two', 'one', 'three'],
... 'quantity' : [3,3,4,5,12,14,3,8], "price" : [50,50,12,35,10,10,12,12]})
>>> df
item price quantity region
0 one 50 3 east
1 one 50 3 west
2 two 12 4 south
3 three 35 5 west
4 two 10 12 east
5 two 10 14 west
6 one 12 3 east
7 three 12 8 west
Run Code Online (Sandbox Code Playgroud)
我想要做的是修改数量列中的值。每个新数量值都是根据该行的项目和价格组合存在的不同区域的数量来计算的。更具体地说,我想获取每个数量并将其乘以我编写的函数返回的区域的权重,该函数采用一个区域和组成池的其他区域的列表:
region_weight(region, list_of_regions)。对于这种假想的情况,我们可以这样说:
那么池中东、西的返回权重为0.3333333333333333(1/3)。池东、西、南南边的权重均为0.5(1/2)。
因此,对于第一行,我们查看商品 1 和价格 50 的其他行。有 2 个与东部地区,一个与西部地区。第一行中的新数量将为:3 *region_weight("east", ["east", "west"]) 或 3 * 0.3333333333333333。
我想对整个数量列应用相同的过程。除了逐行循环数据帧之外,我不知道如何使用 pandas 库解决这个问题。
好的,我认为这符合您的要求:
为您的区域权重创建一个字典:
In [1]: weights = {'east':1,'west':2,'south':3}
Run Code Online (Sandbox Code Playgroud)
以下函数将 Series 中的值映射到权重字典中找到的值。 x是区域的行值,w是映射到权重字典后的区域序列。
In [2]: def f(x):
...: w = x.map(weights)
...: return w / w.sum().astype(float)
Run Code Online (Sandbox Code Playgroud)
在这里,我们分组['item','price']并应用上面的函数。输出是项目和价格的独特组合的一系列相对权重。
In [3]: df.groupby(['item','price']).region.apply(f)
Out[3]:
0 0.333333
1 0.666667
2 1.000000
3 1.000000
4 0.333333
5 0.666667
6 1.000000
7 1.000000
Run Code Online (Sandbox Code Playgroud)
最后,您可以df.quantity乘以上述系列来计算您的体重调整量。
In [4]: df['wt_quant'] = df.groupby(['item','price']).region.apply(f) * df.quantity
In [5]: df
Out[5]:
item price quantity region wt_quant
0 one 50 3 east 1.000000
1 one 50 3 west 2.000000
2 two 12 4 south 4.000000
3 three 35 5 west 5.000000
4 two 10 12 east 4.000000
5 two 10 14 west 9.333333
6 one 12 3 east 3.000000
7 three 12 8 west 8.000000
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1535 次 |
| 最近记录: |