小编lea*_*ark的帖子

使用/不使用Spark SQL加入两个普通RDD

我需要RDDs在一个/多个列上加入两个普通的列.逻辑上,此操作等效于两个表的数据库连接操作.我想知道这是否只有通过Spark SQL或其他方式可行.

作为一个具体示例,请考虑r1使用主键的RDD ITEM_ID:

(ITEM_ID, ITEM_NAME, ITEM_UNIT, COMPANY_ID)

Run Code Online (Sandbox Code Playgroud)

和r2主键的RDD COMPANY_ID:

(COMPANY_ID, COMPANY_NAME, COMPANY_CITY)

Run Code Online (Sandbox Code Playgroud)

我想加入r1和r2.

如何才能做到这一点？

scala join apache-spark rdd apache-spark-sql

lea*_*ark

2015 12-30

25
推荐指数

3
解决办法

7万
查看次数

MLLib到Breeze向量/矩阵是org.apache.spark.mllib范围的私有吗？

我已经读过MLlib局部向量/矩阵当前正在包装Breeze实现的地方,但是将MLlib转换为Breeze向量/矩阵的方法对于org.apache.spark.mllib范围是私有的.解决此问题的建议是在org.apache.spark.mllib.something包中编写代码.

有一个更好的方法吗？你能举出一些相关的例子吗？

感谢致敬,

scala-breeze apache-spark apache-spark-mllib

lea*_*ark

2016 04-25

7
推荐指数

2
解决办法

5055
查看次数

从RDD中删除常量列并计算协方差矩阵

我的RDD可能包含具有常量值的列.换句话说,一些列的方差可以是零.我的目标是从RDD中删除所有这些列(并最终计算剩余列的协方差矩阵).我怎样才能做到这一点？

感谢致敬,

scala covariance apache-spark rdd

lea*_*ark

2014 12-21

3
推荐指数

1
解决办法

1865
查看次数

标准化RDD

假设我有一个双打的RDD,我想按如下方式"标准化"它:

计算每个col的平均值和sd
对于每个col,从每个条目中减去列平均值,并将结果除以列sd

这可以高效,轻松地完成(无需在任何阶段将RDD转换为双数组)吗？

感谢致敬,

scala apache-spark rdd apache-spark-sql

lea*_*ark

lucky-day

1
推荐指数

1
解决办法

995
查看次数

从非常大的文件中删除罕见的单词

给定一个非常大的文本文件,我想删除在文件中只出现一次的所有单词.有没有简单有效的方法呢？

最好的祝福,

python unix linux words file

lea*_*ark

lucky-day

0
推荐指数

1
解决办法

1103
查看次数

标签统计

apache-spark ×4

rdd ×3

scala ×3

apache-spark-sql ×2

apache-spark-mllib ×1

covariance ×1

file ×1

join ×1

linux ×1

python ×1

scala-breeze ×1

unix ×1

words ×1

使用/不使用Spark SQL加入两个普通RDD

MLLib到Breeze向量/矩阵是org.apache.spark.mllib范围的私有吗？

从RDD中删除常量列并计算协方差矩阵

标准化RDD

从非常大的文件中删除罕见的单词

标签 统计

小编lea_ark的帖子

标签统计