我试图基于从2-14开始的变量来划分大约14个图.这些图按顺序显示:10,11,12,13,14,15,2,3,4,5,6,7,8,9
如何让他们从2-15订购?
更新:好的,所以我把它作为一个因素使用data$var=as.factor(data$var).级别是
Levels: 10 11 12 13 14 15 2 3 4 5 6 7 8 9
我如何重新排序?
我一直在EC2服务器上运行一些内存密集型进程.代码运行得很好,大约12-14小时(它在12-14个大型数据集上运行了1000次模拟),然后我突然看到消息"Killed",没有进一步的解释.
是什么让R这样做?
更新:我的服务器规格.
我正在尝试使用rrdf包在R中编写一些SPARQL查询.但是,每次尝试加载库时都会出现此错误.
Error: package 'rrdflibs' 1.1.2 was found, but == 1.1.0 is required by 'rrdf'
Run Code Online (Sandbox Code Playgroud)
不知道他们为什么不把它写成>= 1.1.0.他们做了什么编程练习?
我有一个数据集,其标题如下所示:
PID Time Site Rep Count
Run Code Online (Sandbox Code Playgroud)
我想总结Count通过Rep对每个PID x Time x Site combo
对得到的data.frame,我想要得到的平均值Count进行PID x Time x Site组合.
目前的功能如下:
dummy <- function (data)
{
A<-aggregate(Count~PID+Time+Site+Rep,data=data,function(x){sum(na.omit(x))})
B<-aggregate(Count~PID+Time+Site,data=A,mean)
return (B)
}
Run Code Online (Sandbox Code Playgroud)
这是非常缓慢的(原始data.frame是510000 20).有没有办法加快plyr的速度?
对于我目前参与的几项工作,我通过一系列功能运行具有大量参数组合的大型数据集.这些函数有一个包装器(所以我可以mclapply),以便于在集群上操作.但是,我遇到了两个主要挑战.
a)我的参数组合很大(想想20k到100k).有时特定的组合会失败(例如,生存率太高而死亡率太低,因此模型永远不会收敛为假设情景).我很难提前确定哪些组合会失败(如果我能做到这一点,生活会更容易).但是现在我有这种类型的设置:
failsafe <- failwith(NULL, my_wrapper_function)
# This is what I run
# Note that input_variables contains a list of variables in each list item
results <- mclapply(input_variables, failsafe, mc.cores = 72)
# On my local dual core mac, I can't do this so the equivalent would be:
results <- llply(input_variables, failsafe, .progress = 'text')
Run Code Online (Sandbox Code Playgroud)
我的包装函数的骨架如下所示:
my_wrapper_function <- function(tlist) {
run <- tryCatch(my_model(tlist$a, tlist$b, tlist$sA, tlist$Fec, m = NULL) , error=function(e) NULL)
...
return(run)
}
Run Code Online (Sandbox Code Playgroud)
这是最有效的方法吗?如果由于某种原因,特定的变量组合会使模型崩溃,我需要它返回 …
我有一个包含太多行的数据框,无法进行空间相关图.相反,我想为每个物种抓取40行并在该子集上运行我的相关图.
我编写了一个函数来对数据框进行子集,如下所示:
samp <- function(dataf)
{
dataf[sample(1:dim(dataf)[1], size=40, replace=FALSE),]
}
Run Code Online (Sandbox Code Playgroud)
现在我想在更大的数据框架中将此函数应用于每个物种.
当我尝试类似的东西
culled_data = ddply (larger_data, .(species), subset, samp)
Run Code Online (Sandbox Code Playgroud)
我收到此错误:
Error in subset.data.frame(piece, ...) :
'subset' must evaluate to logical
Run Code Online (Sandbox Code Playgroud)
有人知道如何做到这一点?
我通过glm.nb使用包装函数运行数百个数据集.没什么好看的,我只是传递每个列表项llply,然后适合使用glm.nb,将系数写入a data.frame并返回.
毫不奇怪,glm.nb无法收敛某些数据集.而不是让函数咳出一个错误并停止,我宁愿它继续通过其余的数据集并尽可能返回结果.
我的第一次尝试是这样的:
res.model <- function(x)
{
res <- try(invisible(glm.nb(x~y, data=x)))
if(!("try-error" %in% class(res)))
{
return (data.frame(site=unique(x$site_name),species=unique(x$species),coef=res$coefficients[2]))
}
}
Run Code Online (Sandbox Code Playgroud)
有关更通用的方法忽略错误的任何想法,所以我可以使这项工作?
因此,当我制作情节时,我会看到y交叉x处于某个偏移处.我使用以下方法生成此图:
ggplot(data=d2,aes(y=log10(Nems+1),x=Time)) +
geom_point(size=3,shape=1) +
geom_line(data=d2,aes(x=time_model,y=log10(value),group=variable,linetype=variable)) +
ylim(0.001,2) + no_bg + draw_axis
Run Code Online (Sandbox Code Playgroud)
我最终在Illustrator中手动移动y.有没有办法在这里做到这一点?
我希望利用亚马逊现货实例,这些实例成本较低,但可以随时终止.我想设置它,以便我可以通过脚本中途发送自己的数据,以便将来可以从那里接收.
我如何通过电子邮件发送自己的.rdata文件?
难度:理想的解决方案不涉及RCurl,因为我无法在我的机器实例上安装该软件包.
knit('test2.rnw')
processing file: test2.rnw
|>>>>>>>>>>>>> | 20%
|>>>>>>>>>>>>>>>>>>>>>>>>>> | 40%
label: setup (with options)
List of 2
$ include: logi FALSE
$ cache : logi FALSE
sh: kpsewhich: command not found
|>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> | 60%
|>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> | 80%
|>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>| 100%
ordinary text without R code
output file: /Users/xxx/Desktop/R_meetup/documentation/test2.tex
Warning message:
In test_latex_pkg("framed", system.file("misc", "framed.sty", package = "knitr")) :
unable to find LaTeX package 'framed'; will use a copy from knitr
>
Run Code Online (Sandbox Code Playgroud)
我在OSX Lion 10.7.3上
kpsewhich的路径:
$ which kpsewhich
/usr/texbin/kpsewhich
$ which …Run Code Online (Sandbox Code Playgroud)