小编H_A*_*H_A的帖子

测试数据的R平方

我在75%的数据集上拟合了一个线性回归模型,包括~11000个观测值和143个变量:

gl.fit <- lm(y[1:ceiling(length(y)*(3/4))] ~ ., data= x[1:ceiling(length(y)*(3/4)),]) #3/4 for training

,我的R ^ 2为0.43.然后,我尝试使用其余数据预测我的测试数据:

ytest=y[(ceiling(length(y)*(3/4))+1):length(y)] x.test <- cbind(1,x[(ceiling(length(y)*(3/4))+1):length(y),]) #The rest for test yhat <- as.matrix(x.test)%*%gl.fit$coefficients #Calculate the predicted values

我现在想计算测试数据的R ^ 2值.有没有简单的方法来计算？

谢谢

r linear-regression

H_A*_*H_A

lucky-day

9
推荐指数

2
解决办法

3万
查看次数

python pandas中group by后将一列的多个值合并到一列中

我希望执行与此线程中类似的任务：将多个列值合并到 python pandas 中的一列中

但不同之处在于，我想创建一个新列，在按另一列分组后合并列中的所有非空值。这是一个玩具示例：

df= pd.DataFrame({'ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,'1', np.nan,'1','2',np.nan,'1'], 
                                  dtype="category")})

 df
Out[74]: 
     ID1 ID2 Status
 0    1   a    NaN
 1    1   a      1
 2    2   b    NaN
 3    2   b      1
 4    3   c      2
 5    3   c    NaN
 6    3   c      1

Run Code Online (Sandbox Code Playgroud)

然后我想groupby ID1并且ID2：

gr = df.groupby(['ID1','ID2'])

Run Code Online (Sandbox Code Playgroud)

然后，我希望我的结果如下所示：

Out:
   NewCol
0   1
1   1
2   2,1

Run Code Online (Sandbox Code Playgroud)

所以它是一个新的DataFrame，包含按和分组的列non-null的值。StatusID1ID2

提前致谢。

python row dataframe pandas pandas-groupby

H_A*_*H_A

lucky-day

5
推荐指数

1
解决办法

3338
查看次数

将矢量中的唯一值分组并将它们放在矩阵中

我有一个包含重复数字的向量,如下所示:

[1 1 1 1 5 5 5 5 93 93 93 6 6 6 6 6 6]等等.我想要做的是将相似的值(1,5等)分组.我希望将每个唯一值放在一个大矩阵的行中,例如:

[ 1  1  1  1  0  0

  5  5  5  5  0  0

 93 93 93  0  0  0

  6  6  6  6  6  6]

Run Code Online (Sandbox Code Playgroud)

我不知道唯一值的最大出现次数,因此可以创建一个具有大量列的初始零矩阵(我确信它大于唯一值的最大出现次数).任何帮助都非常感谢.

sorting indexing matlab unique matrix

H_A*_*H_A

2014 03-13

4
推荐指数

2
解决办法

130
查看次数

ggplot：在 x 轴上绘制 bin 并在 y 轴上绘制平均值

假设我有一个如下所示的数据框：

data <- data.frame(y = rnorm(10,0,1), x = runif(10,0,1))

Run Code Online (Sandbox Code Playgroud)

我想要做的是将 x 值切成 bin，例如：

data$bins <- cut(data$x,breaks = 4)

Run Code Online (Sandbox Code Playgroud)

然后，我想绘制（使用 ggplot）结果，x 轴是 bin，y 轴是落入相应 bin 的 data$y 数据点的平均值。

先感谢您

r ggplot2 binning

H_A*_*H_A

lucky-day

4
推荐指数

1
解决办法

9468
查看次数

标签统计

r ×2

binning ×1

dataframe ×1

ggplot2 ×1

indexing ×1

linear-regression ×1

matlab ×1

matrix ×1

pandas ×1

pandas-groupby ×1

python ×1

row ×1

sorting ×1

unique ×1

测试数据的R平方

python pandas中group by后将一列的多个值合并到一列中

将矢量中的唯一值分组并将它们放在矩阵中

ggplot：在 x 轴上绘制 bin 并在 y 轴上绘制平均值

标签 统计

小编H_A_H_A的帖子

标签统计