我在Debian Jessie上安装了:
Python2.7
Python3.5
我还通过pip2和安装了Jupyterpip3
但是当我启动时jupyter-notebook我只能使用python3作为内核!使用Jupyter时如何切换到pyhton2.7?
我尝试使用R进行回归.我有以下代码,导入CSV文件没有问题
dat <- read.csv('http://pastebin.com/raw.php?i=EWsLjKNN',sep=";")
dat # OK Works fine
Regdata <- lm(Y~.,na.action=na.omit, data=dat)
summary(Regdata)
Run Code Online (Sandbox Code Playgroud)
但是,当我尝试回归时,它无法正常工作.我收到一条错误消息:
Erreur dans lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) :
aucun cas ne contient autre chose que des valeurs manquantes (NA)
Run Code Online (Sandbox Code Playgroud)
我的所有CSV文件都是数字,如果"单元格"为空,则我有"NA"值.有些列不是空的,有些其他行有时是空的,带有NA值...
所以,我不明白为什么我收到错误信息,即使:
na.action=na.omit
Run Code Online (Sandbox Code Playgroud)
PS:CSV的数据可从以下网址获得:http: //pastebin.com/EWsLjKNN
当我执行multinom reg.我很难用Rmd和Knit HTLM(Rstudio)得到一个很好的总结.我想知道如何得到一个很好的总结,好像我使用stargazerLaTeX包...(参见printscreen)
摘要输出难以阅读!

总结很好,很容易与观星者阅读!

我想用ggplot得到子集的facet subet mean(x + y axis).但是,我得到数据的平均值而不是子集1.我不知道如何解决这个问题.
hsb2<-read.table("http://www.ats.ucla.edu/stat/data/hsb2.csv", sep=",", header=T)
head(hsb2)
hsb2$gender = as.factor(hsb2$female)
ggplot() +
geom_point(aes(y = read,x = write,colour = gender),data=hsb2,size = 2.2,alpha = 0.9) +
scale_colour_brewer(guide = guide_legend(),palette = 'Set1') +
stat_smooth(aes(x = write,y = read),data=hsb2,colour = '#000000',size = 0.8,method = lm,formula = 'y ~ x') +
geom_vline(aes(xintercept = mean(write)),data=hsb2,linetype = 3) +
geom_hline(aes(yintercept = mean(read)),data=hsb2,linetype = 3) +
facet_wrap(facets = ~gender)
Run Code Online (Sandbox Code Playgroud)

在Rstudio中使用以下代码与Knit HTML
---
title: "test"
output: html_document
---
```{r pressure, echo=FALSE}
library(caret)
tc <- trainControl(method="boot",number=25)
train = train(Species~.,data=iris,method="nnet",trControl=tc)
confusionMatrix(train)
```
Run Code Online (Sandbox Code Playgroud)
如何避免train我的html文件上的迭代打印?
我正在尝试从此数据框中获取频率表:
tmp2 <- structure(list(a1 = c(1L, 0L, 0L), a2 = c(1L, 0L, 1L),
a3 = c(0L, 1L, 0L), b1 = c(1L, 0L, 1L),
b2 = c(1L, 0L, 0L), b3 = c(0L, 1L, 1L)),
.Names = c("a1", "a2", "a3", "b1", "b2", "b3"),
class = "data.frame", row.names = c(NA, -3L))
tmp2 <- read.csv("tmp2.csv", sep=";")
tmp2
> tmp2
a1 a2 a3 b1 b2 b3
1 1 1 0 1 1 0
2 0 0 1 0 0 1
3 0 1 0 1 …Run Code Online (Sandbox Code Playgroud) 我有以下数据框,我试图“融化”。
所以我的目标是获得 2 列的输出
所以我的输出应该看起来像[这只是输出的头部,为了简洁我没有完全显示它]
我已经尝试过以下方法,但它不起作用。
df2 = pd.melt(df, id_vars=df.index, var_name="Name", value_name="Value")
Run Code Online (Sandbox Code Playgroud)
它说:KeyError:“以下‘id_vars’不存在于数据帧中:
PS:这些列是“预测变量”,所以如果不是太复杂,我很乐意在列名称中添加 P 作为前缀,例如 P0 P1 P2 P3 P4 P5
我有一个数据框,看起来像下面的“输入”中所示的图片。
我尝试每行获取1个日期(请参见下面的“所需输出”中的图片)。换句话说,我尝试对每一行进行一种“转置”。
让我们规定“ LC”和“ Prod”的组合是唯一的键。
输入项
所需的输出:
信息:
在我的真实数据集中,数量字段(彩色区域)中缺少一些值。因此,我仍然应该能够使用缺失值进行计算。
我的尝试失败了
我尝试了以下操作,但失败了...
library("dplyr")
outputTest <- tbl_df(inputTest) %>%
gather(date, value, c(inputTest$LC, inputTest$Prod))
outputTest
Run Code Online (Sandbox Code Playgroud)
资源:
inputTest <- structure(list(LC = structure(c(1L, 3L, 1L, 2L), .Label = c("berlin",
"munchen", "stutgart"), class = "factor"), Prod = structure(c(1L,
2L, 2L, 1L), .Label = c("(STORE1)400096", "STORE2_00154"), class = "factor"),
PROD_TYPE = structure(c(1L, 2L, 2L, 1L), .Label = c("STORE1",
"STORE2"), class = "factor"), X2015.6.29 = c(20.08, 8.91,
11.38, 15.42), X2015.7.6 = c(20.66, 8.49, 10.91, 15.57),
X2015.7.13 = c(19.02, 8.55, …Run Code Online (Sandbox Code Playgroud) 您好我使用包预测来进行时间序列预览.我想知道如何在最终预测图上取消记录系列.使用预测包我不知道如何取消记录我的系列.这是一个例子:
library(forecast)
data <- AirPassengers
data <- log(data) #with this AirPassengers data not nessesary to LOG but with my private data it is...because of some high picks...
ARIMA <- arima(data, order = c(1, 0, 1), list(order = c(12,0, 12), period = 1)) #Just a fake ARIMA in this case...
plot(forecast(ARIMA, h=24)) #but my question is how to get a forecast plot according to the none log AirPassenger data
Run Code Online (Sandbox Code Playgroud)

因此记录了图像.我想拥有相同的ARIMA模式,但没有任何loged数据.
我有一个简单的x数据帧
x <- matrix(rnorm(20, 1), ncol = 3)
colnames(x) <- c("one", "two", "three")
x <- as.data.frame(x)
Run Code Online (Sandbox Code Playgroud)
我想将x数据帧的第一列子集化为数据帧对象.
如果我这样做,x[,1] 我会得到一个矢量.但是,我想获得一个数据帧.
是否有一种简单的方法可以将其转换为1列数据帧并保留colname?
您好,我将Spark与Python配合使用,我对数据框执行了基本的count(*)查询,如下所示
myquery = sqlContext.sql("SELECT count(*) FROM myDF")
Run Code Online (Sandbox Code Playgroud)
结果是
+--------+
|count(1)|
+--------+
| 3469|
+--------+
Run Code Online (Sandbox Code Playgroud)
如何保存该值以便执行进一步的操作。
例如,将3469除以24 [无论24意味着...]
我test.sh在/home/me文件夹中有以下文件
#!/bin/sh
_now=$(date +"%Y_%m_%d")
_file="/home/me/$_now.txt"
speedtest-cli --simple > $_file
Run Code Online (Sandbox Code Playgroud)
哪个speedtest-cli是python脚本,它提供了互联网和dll速度信息:https://github.com/sivel/speedtest-cli.
调用test.sh从/home/me作品非常好:我把我的yyy_mm_dd.txt所有相关信息输出(DLL加快速度等).
但是当我尝试test.sh从crontab 调用时,我得到一个空yyy_mm_dd.txt文件(内部没有).
内 crontab-e
20 20 * * * /home/me/test.sh
Run Code Online (Sandbox Code Playgroud)
我做错什么了吗?