小编lea*_*ark的帖子

使用/不使用Spark SQL加入两个普通RDD

我需要RDDs在一个/多个列上加入两个普通的列.逻辑上,此操作等效于两个表的数据库连接操作.我想知道这是否只有通过Spark SQL或其他方式可行.

作为一个具体示例,请考虑r1使用主键的RDD ITEM_ID:

(ITEM_ID, ITEM_NAME, ITEM_UNIT, COMPANY_ID)
Run Code Online (Sandbox Code Playgroud)

r2主键的RDD COMPANY_ID:

(COMPANY_ID, COMPANY_NAME, COMPANY_CITY)
Run Code Online (Sandbox Code Playgroud)

我想加入r1r2.

如何才能做到这一点?

scala join apache-spark rdd apache-spark-sql

25
推荐指数
3
解决办法
7万
查看次数

MLLib到Breeze向量/矩阵是org.apache.spark.mllib范围的私有吗?

我已经读过MLlib局部向量/矩阵当前正在包装Breeze实现的地方,但是将MLlib转换为Breeze向量/矩阵的方法对于org.apache.spark.mllib范围是私有的.解决此问题的建议是在org.apache.spark.mllib.something包中编写代码.

有一个更好的方法吗?你能举出一些相关的例子吗?

感谢致敬,

scala-breeze apache-spark apache-spark-mllib

7
推荐指数
2
解决办法
5055
查看次数

从RDD中删除常量列并计算协方差矩阵

我的RDD可能包含具有常量值的列.换句话说,一些列的方差可以是零.我的目标是从RDD中删除所有这些列(并最终计算剩余列的协方差矩阵).我怎样才能做到这一点?

感谢致敬,

scala covariance apache-spark rdd

3
推荐指数
1
解决办法
1865
查看次数

标准化RDD

假设我有一个双打的RDD,我想按如下方式"标准化"它:

  1. 计算每个col的平均值和sd
  2. 对于每个col,从每个条目中减去列平均值,并将结果除以列sd

这可以高效,轻松地完成(无需在任何阶段将RDD转换为双数组)吗?

感谢致敬,

scala apache-spark rdd apache-spark-sql

1
推荐指数
1
解决办法
995
查看次数

从非常大的文件中删除罕见的单词

给定一个非常大的文本文件,我想删除在文件中只出现一次的所有单词.有没有简单有效的方法呢?

最好的祝福,

python unix linux words file

0
推荐指数
1
解决办法
1103
查看次数