如何在混合数据中找到相关性,包括 r 中的连续、类别和日期类型

Fen*_*hen 0 mixed r correlation

我有一个包括不同类型的数据:

a <- data.frame(x=c("a","b","b","c","c","c","d","d","e","f"),y=c(1,2,2,2,3,1,4,7,10,2),m=c("a","d","ab","ac","ac","vc","ed","ed","e","df"),n=c(2,1,5,3,3,2,8,10,10,1))
Run Code Online (Sandbox Code Playgroud)

实际上,数据比这更复杂,可能还包括日期。此外,这是一个无人监督的问题。所以这里没有“类标签”。所以我不能使用诸如方差分析之类的方法。那么,如何找到每两列之间的相关性?

PS 我在 psych 包中找到了一个叫做 mix.cor 的函数,但不明白如何使用它。

此外,相关性只是表示线性关系。如果我想知道每一列的重要性,我应该使用什么函数?

Mic*_*sco 6

大多数人用于数值变量的相关性度量(即 Pearson 相关性)并未针对分类数据定义。如果要测量数值变量和分类变量之间的关联,可以使用 ANOVA。如果要测量两个分类变量之间的关联,可以使用卡方检验。如果您的分类变量是有序的(例如低、中、高),您可以使用 Spearman 等级相关。