我有一个数据集(user, product, review),并希望将其提供给mllib的ALS算法.
(user, product, review)
该算法需要用户和产品为数字,而我的是String用户名和字符串SKU.
现在,我获得了不同的用户和SKU,然后在Spark之外为他们分配数字ID.
我想知道是否有更好的方法来做到这一点.我想到的一种方法是编写一个自定义RDD,基本上枚举1到n,然后在两个RDD上调用zip.
n
apache-spark apache-spark-mllib
apache-spark ×1
apache-spark-mllib ×1