小编Zwi*_*bak的帖子

如何在python中创建产品订单的共现矩阵?

假设我们有以下数据框,其中包括客户订单 (order_id) 和单个订单包含的产品 (product_id):

import pandas as pd

df = pd.DataFrame({'order_id' : [1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3],
                   'product_id' : [365, 48750, 3333, 9877, 48750, 32001, 3333, 3333, 365, 11202, 365]})
print(df)

   order_id product_id
0         1        365
1         1      48750
2         1       3333
3         1       9877
4         2      48750
5         2      32001
6         2       3333
7         3       3333
8         3        365
9         3      11202
10        3        365
Run Code Online (Sandbox Code Playgroud)

了解产品对一起出现在同一个篮子中的频率会很有趣。

如何在 python 中创建一个共现矩阵,如下所示:

       365  48750  3333  9877 …
Run Code Online (Sandbox Code Playgroud)

python product pandas

8
推荐指数
1
解决办法
111
查看次数

MarianMT 和 OpusMT 有什么区别?

我目前正在比较各种预训练的 NMT 模型,不禁想知道 MarianMT 和 OpusMT 之间有什么区别。根据 OpusMT 的Github,它是基于 MarianMT 的。然而,在Huggingface Transformer 实现中,所有预训练的 MarianMT 模型均以“Helsinki-NLP/opus-mt”开头。所以我认为它们是相同的,但即使它们的大小大致相同,它们也会产生不同的翻译结果。

如果有人可以阐明其中的差异,我将非常感激。

machine-translation huggingface-transformers

7
推荐指数
1
解决办法
2761
查看次数

如何为数据帧的每一行计算相同值的条目?

假设我有一个包含订单日期、用户 ID 和项目 ID 的大型数据框。

   order_id order_date user_id item_id
1         1 2016-06-22   30822     643
2         2 2016-06-22   30822     337
3         3 2016-06-22   30823     270
4         4 2016-06-22   30823     142
5         5 2016-06-22   30823     561
6         6 2016-06-22   30823     561
7         7 2016-06-22   30823      72
8         8 2016-06-22   30823     106
9         9 2016-06-22   30823     195
10       10 2016-06-22   30823     195
Run Code Online (Sandbox Code Playgroud)

我想要做的是计算同一用户在同一天下的订单数量以及同一用户下的同一商品的订单数量,并在第四列和第五列中显示这两个值。所以结果应该是这样的:

   order_id order_date user_id item_id same_day same_item
1         1 2016-06-22   30822     643        2         1
2         2 2016-06-22   30822     337        2         1 …
Run Code Online (Sandbox Code Playgroud)

automation loops r count dataframe

2
推荐指数
3
解决办法
81
查看次数