小编H_A*_*H_A的帖子

测试数据的R平方

我在75%的数据集上拟合了一个线性回归模型,包括~11000个观测值和143个变量:

gl.fit <- lm(y[1:ceiling(length(y)*(3/4))] ~ ., data= x[1:ceiling(length(y)*(3/4)),]) #3/4 for training

,我的R ^ 2为0.43.然后,我尝试使用其余数据预测我的测试数据:

ytest=y[(ceiling(length(y)*(3/4))+1):length(y)] x.test <- cbind(1,x[(ceiling(length(y)*(3/4))+1):length(y),]) #The rest for test yhat <- as.matrix(x.test)%*%gl.fit$coefficients #Calculate the predicted values

我现在想计算测试数据的R ^ 2值.有没有简单的方法来计算?

谢谢

r linear-regression

9
推荐指数
2
解决办法
3万
查看次数

python pandas中group by后将一列的多个值合并到一列中

我希望执行与此线程中类似的任务:将多个列值合并到 python pandas 中的一列中

但不同之处在于,我想创建一个新列,在按另一列分组后合并列中的所有非空值。这是一个玩具示例:

df= pd.DataFrame({'ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,'1', np.nan,'1','2',np.nan,'1'], 
                                  dtype="category")})

 df
Out[74]: 
     ID1 ID2 Status
 0    1   a    NaN
 1    1   a      1
 2    2   b    NaN
 3    2   b      1
 4    3   c      2
 5    3   c    NaN
 6    3   c      1
Run Code Online (Sandbox Code Playgroud)

然后我想groupby ID1并且ID2

gr = df.groupby(['ID1','ID2'])
Run Code Online (Sandbox Code Playgroud)

然后,我希望我的结果如下所示:

Out:
   NewCol
0   1
1   1
2   2,1
Run Code Online (Sandbox Code Playgroud)

所以它是一个新的DataFrame,包含按和分组的列non-null的值。StatusID1ID2

提前致谢。

python row dataframe pandas pandas-groupby

5
推荐指数
1
解决办法
3338
查看次数

将矢量中的唯一值分组并将它们放在矩阵中

我有一个包含重复数字的向量,如下所示:

[1 1 1 1 5 5 5 5 93 93 93 6 6 6 6 6 6]等等.我想要做的是将相似的值(1,5等)分组.我希望将每个唯一值放在一个大矩阵的行中,例如:

[ 1  1  1  1  0  0

  5  5  5  5  0  0

 93 93 93  0  0  0

  6  6  6  6  6  6]
Run Code Online (Sandbox Code Playgroud)

我不知道唯一值的最大出现次数,因此可以创建一个具有大量列的初始零矩阵(我确信它大于唯一值的最大出现次数).任何帮助都非常感谢.

sorting indexing matlab unique matrix

4
推荐指数
2
解决办法
130
查看次数

ggplot:在 x 轴上绘制 bin 并在 y 轴上绘制平均值

假设我有一个如下所示的数据框:

data <- data.frame(y = rnorm(10,0,1), x = runif(10,0,1))
Run Code Online (Sandbox Code Playgroud)

我想要做的是将 x 值切成 bin,例如:

data$bins <- cut(data$x,breaks = 4)
Run Code Online (Sandbox Code Playgroud)

然后,我想绘制(使用 ggplot)结果,x 轴是 bin,y 轴是落入相应 bin 的 data$y 数据点的平均值。

先感谢您

r ggplot2 binning

4
推荐指数
1
解决办法
9468
查看次数