小编kar*_*ian的帖子

分类变量的多重共线性

对于数值/连续数据,为了检测预测变量之间的共线性,我们使用Pearson 相关系数并确保预测变量之间不相关,但与响应变量相关。


但是如果我们有一个数据集,我们如何检测多重共线性,其中预测变量都是categorical。我正在共享一个数据集,我试图找出预测变量是否相关


> A(Response Variable)   B     C   D
> Yes                    Yes Yes Yes
> No                     Yes Yes Yes
> Yes                    No   No  No
Run Code Online (Sandbox Code Playgroud)

如何做同样的事情?

statistics r linear-regression

10
推荐指数
1
解决办法
3万
查看次数

Spark Scala中的sortByKey()函数无法正常工作

我试图sortByKey()在以下文本文件上运行一个函数.

EMP_NAME EMP_ID SALARY
Adam     22      100
Bob      25      102
Bob      28      104
Chris    29      110
Run Code Online (Sandbox Code Playgroud)

EMP_NAME作为以下文本文件的关键.我正在运行以下命令:textFile.sortByKey() 我得到以下输出:

Bob
Bob
Adam
Chris
Run Code Online (Sandbox Code Playgroud)

感谢帮助.谢谢.

scala apache-spark

1
推荐指数
1
解决办法
1707
查看次数

标签 统计

apache-spark ×1

linear-regression ×1

r ×1

scala ×1

statistics ×1