任何人都可以分享一个关于如何使用 lightgbm 训练排名模型的最小数据示例吗?最好使用 Scikit-Lean api?我正在努力解决的是如何传递标签数据。我的数据是页面展示次数,如下所示:
X:
user1, feature1, ...
user2, feature1, ...
y:
user1, page1, 10 impressions
user1, page2, 6 impressions
user2, page1, 9 impressions
Run Code Online (Sandbox Code Playgroud)
到目前为止我想我已经明白了
groupscikit-klearn api(set_group()在标准 api 中)中的参数是一个 length 列表set(user_ids),其中每个条目是该用户访问过的不同页面的数量。在上面的例子中,那就是 (2, 1)。该列表的总和等于我的训练集的长度。但是我如何给出对于 user1 来说,page1 的访问频率高于 page2 的信息呢?