我在75%的数据集上拟合了一个线性回归模型,包括~11000个观测值和143个变量:
gl.fit <- lm(y[1:ceiling(length(y)*(3/4))] ~ ., data= x[1:ceiling(length(y)*(3/4)),]) #3/4 for training
,我的R ^ 2为0.43.然后,我尝试使用其余数据预测我的测试数据:
ytest=y[(ceiling(length(y)*(3/4))+1):length(y)]
x.test <- cbind(1,x[(ceiling(length(y)*(3/4))+1):length(y),]) #The rest for test
yhat <- as.matrix(x.test)%*%gl.fit$coefficients #Calculate the predicted values
我现在想计算测试数据的R ^ 2值.有没有简单的方法来计算?
谢谢
我希望执行与此线程中类似的任务:将多个列值合并到 python pandas 中的一列中
但不同之处在于,我想创建一个新列,在按另一列分组后合并列中的所有非空值。这是一个玩具示例:
df= pd.DataFrame({'ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
'Status' : pd.Series([np.nan,'1', np.nan,'1','2',np.nan,'1'],
dtype="category")})
df
Out[74]:
ID1 ID2 Status
0 1 a NaN
1 1 a 1
2 2 b NaN
3 2 b 1
4 3 c 2
5 3 c NaN
6 3 c 1
Run Code Online (Sandbox Code Playgroud)
然后我想groupby ID1并且ID2:
gr = df.groupby(['ID1','ID2'])
Run Code Online (Sandbox Code Playgroud)
然后,我希望我的结果如下所示:
Out:
NewCol
0 1
1 1
2 2,1
Run Code Online (Sandbox Code Playgroud)
所以它是一个新的DataFrame,包含按和分组的列non-null的值。StatusID1ID2
提前致谢。
我有一个包含重复数字的向量,如下所示:
[1 1 1 1 5 5 5 5 93 93 93 6 6 6 6 6 6]等等.我想要做的是将相似的值(1,5等)分组.我希望将每个唯一值放在一个大矩阵的行中,例如:
[ 1 1 1 1 0 0
5 5 5 5 0 0
93 93 93 0 0 0
6 6 6 6 6 6]
Run Code Online (Sandbox Code Playgroud)
我不知道唯一值的最大出现次数,因此可以创建一个具有大量列的初始零矩阵(我确信它大于唯一值的最大出现次数).任何帮助都非常感谢.
假设我有一个如下所示的数据框:
data <- data.frame(y = rnorm(10,0,1), x = runif(10,0,1))
Run Code Online (Sandbox Code Playgroud)
我想要做的是将 x 值切成 bin,例如:
data$bins <- cut(data$x,breaks = 4)
Run Code Online (Sandbox Code Playgroud)
然后,我想绘制(使用 ggplot)结果,x 轴是 bin,y 轴是落入相应 bin 的 data$y 数据点的平均值。
先感谢您