对于数值/连续数据,为了检测预测变量之间的共线性,我们使用Pearson 相关系数并确保预测变量之间不相关,但与响应变量相关。
但是如果我们有一个数据集,我们如何检测多重共线性,其中预测变量都是categorical。我正在共享一个数据集,我试图找出预测变量是否相关
> A(Response Variable) B C D
> Yes Yes Yes Yes
> No Yes Yes Yes
> Yes No No No
Run Code Online (Sandbox Code Playgroud)
如何做同样的事情?
我试图sortByKey()在以下文本文件上运行一个函数.
EMP_NAME EMP_ID SALARY
Adam 22 100
Bob 25 102
Bob 28 104
Chris 29 110
Run Code Online (Sandbox Code Playgroud)
我EMP_NAME作为以下文本文件的关键.我正在运行以下命令:textFile.sortByKey()
我得到以下输出:
Bob
Bob
Adam
Chris
Run Code Online (Sandbox Code Playgroud)
感谢帮助.谢谢.