我有一个DataFrame
看起来如下:
userID, category, frequency
1,cat1,1
1,cat2,3
1,cat9,5
2,cat4,6
2,cat9,2
2,cat10,1
3,cat1,5
3,cat7,16
3,cat8,2
Run Code Online (Sandbox Code Playgroud)
不同类别的数量是10,我想为每个userID
类别创建一个特征向量,并用零填充缺少的类别.
所以输出将是这样的:
userID,feature
1,[1,3,0,0,0,0,0,0,5,0]
2,[0,0,0,6,0,0,0,0,2,1]
3,[5,0,0,0,0,0,16,2,0,0]
Run Code Online (Sandbox Code Playgroud)
这只是一个说明性的例子,实际上我有大约200,000个唯一的userID和300个独特的类别.
创建功能的最有效方法是什么DataFrame
?