我正在尝试在Cloudera的hadoop发行版上运行rhadoop(我不记得它的CDH3或4),并且遇到了一个问题:Rstudio服务器似乎无法识别我的全局变量.
在我的/etc/profile.d/r.sh文件中,我有:
export HADOOP_HOME=/usr/lib/hadoop
export HADOOP_CONF=/usr/hadoop/conf
export HADOOP_CMD=/usr/bin/hadoop
export HADOOP_STREAMING=/usr/lib/hadoop-mapreduce/
Run Code Online (Sandbox Code Playgroud)
当我从终端运行R时,我得到:
> Sys.getenv("HADOOP_CMD")
[1] "usr/bin/hadoop"
Run Code Online (Sandbox Code Playgroud)
但是当我运行Rstudio服务器时:
> Sys.getenv("HADOOP_CMD")
[1] ""
Run Code Online (Sandbox Code Playgroud)
结果,当我尝试运行rhdfs时:
> library("rJava", lib.loc="/home/cloudera/R/x86_64-redhat-linux-gnu-library/2.15")
> library("rhdfs", lib.loc="/home/cloudera/R/x86_64-redhat-linux-gnu-library/2.15")
Error : .onLoad failed in loadNamespace() for 'rhdfs', details:
call: fun(libname, pkgname)
error: Environment variable HADOOP_CMD must be set before loading package rhdfs
Error: package/namespace load failed for 'rhdfs'
Run Code Online (Sandbox Code Playgroud)
有没有人知道我应该把我的环境变量放在那个特定的r.sh文件中?
谢谢!
我对最近提出的一个问题得到了很多好的反馈,并被引导使用dplyr来转换一些数据.我遇到了lm()的问题,并试图从这个转换后的数据中找到一个斜率,并认为我打开了一个新问题.
首先,我有这样的数据:
Var1 Var2 Var3 Time Temp
a w j 9/9/2014 20
a w j 9/9/2014 15
a w k 9/20/2014 10
a w j 9/10/2014 0
b x L 9/12/2014 30
b x L 9/12/2014 10
b y k 9/13/2014 20
b y k 9/13/2014 15
c z j 9/14/2014 20
c z j 9/14/2014 10
c z k 9/14/2014 11
c w l 9/10/2014 45
a d j 9/22/2014 20
a d k 9/15/2014 …
Run Code Online (Sandbox Code Playgroud) 使用sublime text 2的新手,我想知道如何让它指向activeperl.exe(在win7上).
我正在测试编译器,以确保它适用于以下简单的东西:
$x = 1;
$print "$x";
Run Code Online (Sandbox Code Playgroud)
但它让我觉得$ x不是一个公认的语法.我确实将ST2指向我的python可执行文件,但我忘记了迷宫中哪个文件我应该编辑路径.
我在一台机器上有一个sql server实例,我想打开它,可以通过网络访问.但是,我认为这里存在多个问题,我不确定哪一个是真正的因素.
我正在使用的版本是:
select @@version
Run Code Online (Sandbox Code Playgroud)
Microsoft SQL Server 2014 - 12.0.2269.0(X64)2015年6月10日03:35:45版权所有(c)Microsoft Corporation企业版:Windows NT 6.3上的基于内核的许可(64位)(Build 14393 :)
我相信我需要在SQL Server配置管理器中启用网络配置,但是当我查看我的经理时,我看不到任何有用的东西:
是否有任何明显的问题,为什么这将是空白?我是以正确的方式来做这件事的吗?
我试图绘制一些神经网络输出,但我没有得到任何结果.绘制正常的东西就像plot(iris)
工作正常一样,但是neuralnetwork()
对象的某些东西似乎没有以相同的方式绘制.
我的文件看起来像:
---
title: "stack"
author: "stack"
date: "today"
output:
pdf_document: default
html_document: default
---
```{r}
library(neuralnet)
AND <- c(rep(0,3),1)
binary.data <- data.frame(expand.grid(c(0,1), c(0,1)), AND)
net <- neuralnet(AND~Var1+Var2, binary.data, hidden=0,err.fct="ce", linear.output=FALSE)
plot(net)
```
Run Code Online (Sandbox Code Playgroud)
我没有输出.同样的文件绘制其他东西就好了.有什么想法吗?
我想知道应该如何解释套索回归的输出。举个例子:
library(lasso2)
lm.lasso <- l1ce(mpg ~ . , data=mtcars)
summary(lm.lasso)$coefficients
Run Code Online (Sandbox Code Playgroud)
输出是:
Value Std. Error Z score Pr(>|Z|)
(Intercept) 36.01809203 18.92587647 1.90311355 0.05702573
cyl -0.86225790 1.12177221 -0.76865686 0.44209704
disp 0.00000000 0.01912781 0.00000000 1.00000000
hp -0.01399880 0.02384398 -0.58709992 0.55713660
drat 0.05501092 1.78394922 0.03083659 0.97539986
wt -2.68868427 2.05683876 -1.30719254 0.19114733
qsec 0.00000000 0.75361628 0.00000000 1.00000000
vs 0.00000000 2.31605743 0.00000000 1.00000000
am 0.44530641 2.14959278 0.20715850 0.83588608
gear 0.00000000 1.62955841 0.00000000 1.00000000
carb -0.09506985 0.91237207 -0.10420075 0.91701004
Run Code Online (Sandbox Code Playgroud)
如果我理解正确,套索回归应该基本上最小化对模型不那么重要的特征,因此它们的系数基本上为零。这对于qsec
、vs
和gear
功能来说是有意义的。然而,p 值都相当微不足道。 …
我的数据框中的一个列如下所示:
> head(df$col2,n = 50)
[1] "NA, 2015" "November 13, 2014" "September 27, 2014" "October 8, 2014" "December 16, 2013"
[6] "February 8, 2015" "November 2, 2014" "November 30, 2014" "February 18, 2015" "August 22, 2014"
[11] "October 26, 2014" "January 3, 2014" "May 5, 2015" "February 3, 2014" "October 15, 2014"
[16] "September 12, 2014" "April 2, 2014" "April 23, 2015" "November 4, 2014" "January 16, 2014"
[21] "September 28, 2014" "January 14, 2014" "February 13, 2014" "January 17, …
Run Code Online (Sandbox Code Playgroud) 所以我有一个非常非常大的阵列.当我对它运行摘要(var)时,我怎样才能看到列出的内容,即扩展(其他)位?这是一个示例输出:
" var "
"" "foo1 :5908364 "
"" "foot :1419481 "
"" "foop :1214379 "
"" "billy : 833016 "
"" "blah blah : 517618 "
"" "asdfasdf : 24668 "
"" "(Other) : 82474 "
Run Code Online (Sandbox Code Playgroud)
我想显示更多(如果不是全部)捆绑在(其他)下的未列出项目.是否有一个选项可以使用summary()列出超过该数量的项目?
我正在寻找列出数据库中的每个表以及与之对应的列标题。SQL是否可以做到这一点,并在流程中按字母顺序排列列名?
符合以下格式的内容:
Table1 Col1name Col2name Col3name ...
Table2 Col1name Col2name Col3name ...
...
Run Code Online (Sandbox Code Playgroud)
谢谢!
我正在尝试使用 glmnet 学习惩罚逻辑回归方法。我试图预测来自 mtcars 示例数据的汽车是否具有自动变速器或手动变速器。我认为我的代码非常简单,但我似乎遇到了错误:
第一个块简单地将 mtcars 分成 80% 的训练集和 20% 的测试集
library(glmnet)
attach(mtcars)
smp_size <- floor(0.8 * nrow(mtcars))
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size=smp_size)
train <- mtcars[train_ind,]
test <- mtcars[-train_ind,]
Run Code Online (Sandbox Code Playgroud)
我知道 x 数据应该是没有响应的矩阵形式,所以我将两个训练集分成一个无响应矩阵 (train_x) 和一个响应向量 (train_y)
train_x <- train[,!(names(train) %in% c("am"))]
train_y <- train$am
Run Code Online (Sandbox Code Playgroud)
但是当试图训练模型时,
p1 <- glmnet(train_x, train_y)
Run Code Online (Sandbox Code Playgroud)
我收到错误:
Error in elnet(x, is.sparse, ix, jx, y, weights, offset, type.gaussian,
:(list) object cannot be coerced to type 'double'
Run Code Online (Sandbox Code Playgroud)
我错过了什么吗?
r ×7
sql ×2
sql-server ×2
activeperl ×1
cloudera ×1
dataframe ×1
dplyr ×1
glmnet ×1
hadoop ×1
knitr ×1
perl ×1
regression ×1
rstudio ×1
sublimetext2 ×1