Dal*_*ila 5 r risk-analysis lda linear-discriminant
我使用 HMeasure 包将 LDA 纳入我关于信用风险的分析中。我有 11000 个 obs,我选择了年龄和收入来进行分析。我不知道如何解释 LDA 的 R 结果。所以,我不知道我是否根据信用风险选择了最佳变量。我在代码下面给你看。
lda(default ~ ETA, data = train)
Prior probabilities of groups:
0 1
0.4717286 0.5282714
Group means:
ETA
0 34.80251
1 37.81549
Coefficients of linear discriminants:
LD1
ETA 0.1833161
Run Code Online (Sandbox Code Playgroud)
lda(default~ ETA + Stipendio, train)
Call:
lda(default ~ ETA + Stipendio, data = train)
Prior probabilities of groups:
0 1
0.4717286 0.5282714
Group means:
ETA Stipendio
0 34.80251 1535.531
1 37.81549 1675.841
Coefficients of linear discriminants:
LD1
ETA 0.148374799
Stipendio 0.001445174
Run Code Online (Sandbox Code Playgroud)
lda(default~ ETA, train)
ldaP <- predict(lda, data= test)
Run Code Online (Sandbox Code Playgroud)
其中 ETA = AGE 和 STIPENDIO = 收入
非常感谢!
LDA 使用每个类的均值和方差来创建它们之间的线性边界(或分离)。该边界由系数定界。
您有两种不同的模型,一种取决于变量ETA,另一种取决于ETA和Stipendio。
您可以看到的第一件事是Prior probabilities of groups. 这些概率是您的训练数据中已经存在的概率。即,您的训练数据的 47.17% 对应于信用风险评估为 0,而您的训练数据的 52.82% 对应于信用风险评估为 1。(我假设 0 表示“无风险”,1 表示“有风险”)。这些概率在两个模型中是相同的。
您可以看到的第二件事是组均值,它是每个类中每个预测变量的平均值。这些值可能表明变量ETA对风险信用 (37.8154) 的影响可能比对非风险信用 (34.8025) 的影响稍大。这种情况也会发生Stipendio在您的第二个模型中的变量, 中。
第ETA一个模型中计算出的系数为0.1833161。这意味着两个不同类别之间的边界将由以下公式指定:
y = 0.1833161 * ETA
Run Code Online (Sandbox Code Playgroud)
这可以由以下行x表示(表示变量 ETA)。0 或 1 的信用风险将根据它们位于线的哪一侧进行预测。
您的第二个模型包含两个因变量ETA和Stipendio,因此类之间的边界将由以下公式定界:
y = 0.148374799 * ETA + 0.001445174 * Stipendio
Run Code Online (Sandbox Code Playgroud)
如您所见,此公式表示一个平面。(x1代表ETA和x2代表Stipendio)。与之前的模型一样,这个平面代表了风险信用和非风险信用之间的差异。
在第二个模型中,ETA系数远大于Stipendio系数,表明前一个变量对信用风险的影响大于后一个变量。
我希望这有帮助。