小编KM-*_*ash的帖子

我正在研究一个spark mllib算法.我拥有的数据集就是这种形式

公司":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(有更多类似于这些的值)

我试图将字符串值原始编码为数字值.所以,我尝试使用zipwithuniqueID为每个字符串值的唯一值.由于某种原因,我无法将修改后的数据集保存到磁盘.我可以使用spark SQL以任何方式执行此操作吗？或者更好的方法是什么？

6
推荐指数

1
解决办法

8161
查看次数

小编KM-_ash的帖子