我目前正在使用R 3.5(测试版),我的项目中需要data.table包,但我的软件包没有安装.任何人都可以帮助我.它显示我安装时出现以下错误.
install.packages("data.table")将软件包安装到'C:/Users/hp/Documents/R/win-library/3.5'(未指定'lib')---请选择一个CRAN镜像用于这个会话---只能以源代码形式提供的包,可能需要编译C/C++/Fortran:'data.table'这些不会被安装
我还尝试使用CRAN存储库安装数据包data.table_1.10.4-3.zip.但它显示以下错误.
install.packages("C:/Users/hp/Downloads/data.table_1.10.4-3.zip",repos = NULL,type ="win.binary")将包安装到'C:/ Users/hp/Documents/R/win-library/3.5'(作为'lib'未指定)包'data.table'成功解压缩并且MD5求和已检查库(data.table)错误:'data.table'的包或命名空间加载失败:package' data.table'由具有不同内部结构的R版本安装; 需要重新安装才能使用此R版本
谁能帮我?我该怎么办?
我需要在R中编写一个函数来创建一个增加同心数字环的矩阵.该函数的参数是多个层.例如,如果x = 3,矩阵将如下所示:
1 1 1 1 1
1 2 2 2 1
1 2 3 2 1
1 2 2 2 1
1 1 1 1 1
Run Code Online (Sandbox Code Playgroud)
我不知道该怎么做.我真的很感激任何建议.
我创建了一个具有四个输出参数的函数,例如:
myfuction<-function(...){
#Inside the function I created four results A, B, C, and D.
A = ...
B = ...
C = ...
D = ...
z<-list(MacKinnon=A,regression=B,proof=C, res=D)
return(z)
}
Run Code Online (Sandbox Code Playgroud)
结果D对应于表示回归残差的数字向量.
我的问题是如何在不删除它的情况下隐藏此结果?也就是说,我希望当我运行该函数时,结果A,B和C出现,但不是结果D.
如果我想访问结果D,我必须做这样的事情:
X <-myfuction (...)
X$res
Run Code Online (Sandbox Code Playgroud)
能够观察残留物.
如何找到在 RStudio 中打开的 R 文件的详细列表?File有点像->下的列表,Recent Files但更长?
当我R从终端打开时,我可以使用 Tab 键自动完成功能和对象。通过在函数和之后按Tab 键(,函数参数将被列出。但是,在 Ubuntu 中,这些参数似乎是根据它们的声明方式排序的;在 中macos,它们按字母顺序排列。
在 MacO 下:
> findInterval(
all.inside= left.open= rightmost.closed= vec= x=
Run Code Online (Sandbox Code Playgroud)
在 Ubuntu 下:
> findInterval(
x= vec= rightmost.closed= all.inside= left.open=
Run Code Online (Sandbox Code Playgroud)
我想在我的 Mac 上拥有 Ubuntu 行为。我从终端查看了readline选项(不确定是否相关)man readline,但找不到任何有用的东西。
就在今天,我尝试通过Rscript旧服务器上的代码启动.我的脚本收到意外错误:
Error: could not find function `paste0`
Run Code Online (Sandbox Code Playgroud)
事实证明,服务器上安装的R版本是旧版本(2.14).将paste0与以后的R版本来了.在paste0我所知道的(或在任何其他R函数中)的帮助页面中,没有提到支持它的第一个版本.
我的问题:有没有办法知道引入给定函数的版本?像Since:java文档中的部分.谢谢.
编辑:
我可以更好地提出我的问题.有没有理由直接在帮助页面中提供此信息?如果是这样,这是什么?如果没有,下一个R版本是否应该提供它?
我有以下形式的数据框(它太大了,无法完全张贴在这里):
listing_id date city type host_id availability
1 703451 25/03/2013 amsterdam Entire home/apt 3542621 245
2 703451 20/04/2013 amsterdam Entire home/apt 3542621 245
3 703451 28/05/2013 amsterdam Entire home/apt 3542621 245
4 703451 15/07/2013 amsterdam Entire home/apt 3542621 245
5 703451 30/07/2013 amsterdam Entire home/apt 3542621 245
6 703451 19/08/2013 amsterdam Entire home/apt 3542621 245
Run Code Online (Sandbox Code Playgroud)
等等...
我想要三个新的数据框。一个计算特定年份(2013、2012、2011 等)的观测次数,另一个是每月(07/2013、06/2013 等),另一个是每天(28/05/2013、29/05/ 2013 年等)。我只想计算单位时间内出现的次数。
我该怎么做?
我想把级别"A","B"组合成"A + B".我通过以下方式成功完成了此操作:
x <- factor(c("A","B","A","C","D","E","A","E","C"))
x
#[1] A B A C D E A E C
#Levels: A B C D E
l <- c("A+B","A+B","C","D+E","D+E")
factor(l[as.numeric(x)])
#[1] A+B A+B A+B C D+E D+E A+B D+E C
#Levels: A+B C D+E
Run Code Online (Sandbox Code Playgroud)
有没有更简单的方法来做到这一点?(即更多可解释的函数名称,例如combine.factor(f,old.levels,new.levels)将有助于更容易理解代码.)
此外,我试图找到一个很好的命名函数,可能在dplyr包中使用数据框但没有运气.最接近的实施是
df %>% mutate(x = factor(l[as.numeric(x)]))
Run Code Online (Sandbox Code Playgroud) 我正在尝试重构经过训练的基于火花树的模型(RandomForest或GBT分类器),使其可以在没有火花的环境中导出。该toDebugString方法是一个很好的起点。但是,对于RandomForestClassifier,字符串仅显示每棵树的预测类,而没有相对概率。因此,如果对所有树木的预测取平均值,则会得到错误的结果。
一个例子。我们DecisionTree以这种方式代表:
DecisionTreeClassificationModel (uid=dtc_884dc2111789) of depth 2 with 5 nodes
If (feature 21 in {1.0})
Predict: 0.0
Else (feature 21 not in {1.0})
If (feature 10 in {0.0})
Predict: 0.0
Else (feature 10 not in {0.0})
Predict: 1.0
Run Code Online (Sandbox Code Playgroud)
如我们所见,跟随这些节点,看起来预测总是为0或1。但是,如果将这棵单树应用于特征向量,则得到的概率像[0.1007, 0.8993],并且它们在训练中非常有意义,因为在训练中设置负数/正数的比例,该比例最终与示例矢量与输出概率匹配的位置相同。
我的问题:这些概率存储在哪里?有没有办法提取它们?如果是这样,怎么办?一个pyspark解决方案是更好的。
This is a curiosity more than a question, but I was wondering why data.table CJ function returns an object with the rightmost index running faster (as opposite as base expand.grid function).
An example:
CJ(a=letters[1:2],b=LETTERS[1:2])
# a b
#1: a A
#2: a B
#3: b A
#4: b B
expand.grid(a=letters[1:2],b=LETTERS[1:2])
# a b
#1 a A
#2 b A
#3 a B
#4 b B
Run Code Online (Sandbox Code Playgroud)
I think that the leftmost index running faster is more R-ish. Is there a reason …
r ×8
data.table ×2
apache-spark ×1
dplyr ×1
macos ×1
matrix ×1
pyspark ×1
readline ×1
rstudio ×1