我正在使用randomForest
randomForest包中的函数来查找最重要的变量:我的数据框称为城市,我的响应变量是数字收入.
urban.random.forest <- randomForest(revenue ~ .,y=urban$revenue, data = urban, ntree=500, keep.forest=FALSE,importance=TRUE,na.action = na.omit)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
Error in randomForest.default(m, y, ...) : data (x) has 0 rows
Run Code Online (Sandbox Code Playgroud)
在源代码上它与x
变量有关:
n <- nrow(x)
p <- ncol(x)
if (n == 0)
stop("data (x) has 0 rows")
Run Code Online (Sandbox Code Playgroud)
但我无法理解是什么x
.
我在OS X Mavericks上使用Anaconda.当我尝试加载时,cv2
我得到一个导入错误(见下文).你知道怎么解决这个问题吗?
>>import cv2
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: dlopen(/usr/local/Cellar/opencv/2.4.8.2/lib/python2.7/site-packages/cv2.so,
2): Library not loaded: /usr/local/lib/libpng15.15.dylib
Referenced from: /usr/local/Cellar/opencv/2.4.8.2/lib/libopencv_highgui.2.4.dylib
Reason: image not found
Run Code Online (Sandbox Code Playgroud)
我不确定它是否相关,但在/usr/local/lib/
我libpng16.16.dylib
而不是libpng15.15.dylib
.
如何删除此绘图顶部和右侧的白色边框?
这是我用来绘制我的pandas DataFrame的代码:
plt.pcolor(diff,clip_on=False) # diff is a DataFrame
plt.yticks(np.arange(0.5, len(diff.index), 1), diff.index)
plt.xticks(np.arange(0.5, len(diff.columns), 1), diff.columns, rotation=90)
plt.colorbar()
Run Code Online (Sandbox Code Playgroud)
我一直在尝试使用ggplots/reshape2生成一个2D矩形图,代码如下:
library(reshape2)
library(ggplot2)
m <- matrix( c('SNV', 'SNV', NA, NA, 'INDEL', 'SNV', 'INDEL', 'SNV', 'SNV/INDEL'), 3, 3 )
ggplot(melt(m), aes(Var1,Var2, fill=value)) + geom_raster() + xlab('Patient') + ylab('Gene')
Run Code Online (Sandbox Code Playgroud)
请注意,对于具有SNV/INDEL的图块,它将蓝色作为单独的类别进行颜色处理.我只是想知道是否有办法让它实际上有一个分色瓷砖,使瓷砖颜色为栗色/绿色(如瓷砖的一半是栗色,另一半是绿色)?
谢谢,
我有一个大数据框,如下所示:
P1_prom Nom
1 -6.17 Pt_00187
2 -6.17 Pt_00187
3 -6.17 Pt_00187
4 -6.17 Pt_00187
5 -6.17 Pt_00187
6 -6.17 Pt_01418
7 -5.77 Pt_01418
8 -5.37 Pt_01418
9 -4.97 Pt_01418
10 -4.57 Pt_01418
-
-
-
25000
Run Code Online (Sandbox Code Playgroud)
其中Nom表示地图中的一个点,P1_prom表示我们在每个点上执行的操作的值(请注意,我们为每个点执行了5次重复,因此,每个点都有5个值).我想要做的是,没有成功,就是创建一个新列,其中每一行对应于每个点的P1_prom的平均值.所以基本上我需要程序做的是在新列的第一行写入P1_prom的前五个值的平均值,在第二行中写入接下来五个值的平均值,依此类推.任何人都可以指导我如何做到这一点.非常感谢Veronica