相关疑难解决方法(0)

Spark,Scala,DataFrame:创建特征向量

我有一个DataFrame看起来如下:

userID, category, frequency
1,cat1,1
1,cat2,3
1,cat9,5
2,cat4,6
2,cat9,2
2,cat10,1
3,cat1,5
3,cat7,16
3,cat8,2
Run Code Online (Sandbox Code Playgroud)

不同类别的数量是10,我想为每个userID类别创建一个特征向量,并用零填充缺少的类别.

所以输出将是这样的:

userID,feature
1,[1,3,0,0,0,0,0,0,5,0]
2,[0,0,0,6,0,0,0,0,2,1]
3,[5,0,0,0,0,0,16,2,0,0]
Run Code Online (Sandbox Code Playgroud)

这只是一个说明性的例子,实际上我有大约200,000个唯一的userID和300个独特的类别.

创建功能的最有效方法是什么DataFrame

scala apache-spark apache-spark-sql apache-spark-ml

15
推荐指数
3
解决办法
9629
查看次数