我需要RDDs在一个/多个列上加入两个普通的列.逻辑上,此操作等效于两个表的数据库连接操作.我想知道这是否只有通过Spark SQL或其他方式可行.
作为一个具体示例,请考虑r1使用主键的RDD ITEM_ID:
(ITEM_ID, ITEM_NAME, ITEM_UNIT, COMPANY_ID)
Run Code Online (Sandbox Code Playgroud)
和r2主键的RDD COMPANY_ID:
(COMPANY_ID, COMPANY_NAME, COMPANY_CITY)
Run Code Online (Sandbox Code Playgroud)
我想加入r1和r2.
如何才能做到这一点?
我已经读过MLlib局部向量/矩阵当前正在包装Breeze实现的地方,但是将MLlib转换为Breeze向量/矩阵的方法对于org.apache.spark.mllib范围是私有的.解决此问题的建议是在org.apache.spark.mllib.something包中编写代码.
有一个更好的方法吗?你能举出一些相关的例子吗?
感谢致敬,
我的RDD可能包含具有常量值的列.换句话说,一些列的方差可以是零.我的目标是从RDD中删除所有这些列(并最终计算剩余列的协方差矩阵).我怎样才能做到这一点?
感谢致敬,
假设我有一个双打的RDD,我想按如下方式"标准化"它:
这可以高效,轻松地完成(无需在任何阶段将RDD转换为双数组)吗?
感谢致敬,
给定一个非常大的文本文件,我想删除在文件中只出现一次的所有单词.有没有简单有效的方法呢?
最好的祝福,
apache-spark ×4
rdd ×3
scala ×3
covariance ×1
file ×1
join ×1
linux ×1
python ×1
scala-breeze ×1
unix ×1
words ×1