假设我们有以下数据框,其中包括客户订单 (order_id) 和单个订单包含的产品 (product_id):
import pandas as pd
df = pd.DataFrame({'order_id' : [1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3],
'product_id' : [365, 48750, 3333, 9877, 48750, 32001, 3333, 3333, 365, 11202, 365]})
print(df)
order_id product_id
0 1 365
1 1 48750
2 1 3333
3 1 9877
4 2 48750
5 2 32001
6 2 3333
7 3 3333
8 3 365
9 3 11202
10 3 365
Run Code Online (Sandbox Code Playgroud)
了解产品对一起出现在同一个篮子中的频率会很有趣。
如何在 python 中创建一个共现矩阵,如下所示:
365 48750 3333 9877 …
Run Code Online (Sandbox Code Playgroud) 我目前正在比较各种预训练的 NMT 模型,不禁想知道 MarianMT 和 OpusMT 之间有什么区别。根据 OpusMT 的Github,它是基于 MarianMT 的。然而,在Huggingface Transformer 实现中,所有预训练的 MarianMT 模型均以“Helsinki-NLP/opus-mt”开头。所以我认为它们是相同的,但即使它们的大小大致相同,它们也会产生不同的翻译结果。
如果有人可以阐明其中的差异,我将非常感激。
假设我有一个包含订单日期、用户 ID 和项目 ID 的大型数据框。
order_id order_date user_id item_id
1 1 2016-06-22 30822 643
2 2 2016-06-22 30822 337
3 3 2016-06-22 30823 270
4 4 2016-06-22 30823 142
5 5 2016-06-22 30823 561
6 6 2016-06-22 30823 561
7 7 2016-06-22 30823 72
8 8 2016-06-22 30823 106
9 9 2016-06-22 30823 195
10 10 2016-06-22 30823 195
Run Code Online (Sandbox Code Playgroud)
我想要做的是计算同一用户在同一天下的订单数量以及同一用户下的同一商品的订单数量,并在第四列和第五列中显示这两个值。所以结果应该是这样的:
order_id order_date user_id item_id same_day same_item
1 1 2016-06-22 30822 643 2 1
2 2 2016-06-22 30822 337 2 1 …
Run Code Online (Sandbox Code Playgroud)