相关疑难解决方法(0)

如何为Spark RDD中的元素分配唯一的连续数字

我有一个数据集(user, product, review),并希望将其提供给mllib的ALS算法.

该算法需要用户和产品为数字,而我的是String用户名和字符串SKU.

现在,我获得了不同的用户和SKU,然后在Spark之外为他们分配数字ID.

我想知道是否有更好的方法来做到这一点.我想到的一种方法是编写一个自定义RDD,基本上枚举1到n,然后在两个RDD上调用zip.

apache-spark apache-spark-mllib

46
推荐指数
3
解决办法
2万
查看次数

标签 统计

apache-spark ×1

apache-spark-mllib ×1