小编lmo*_*lmo的帖子

获取数据的概率密度

我需要分析有关DSL线路的互联网会话的一些数据.我想看看会话持续时间是如何分配的.我认为这样做的一个简单方法是首先制作所有会话持续时间的概率密度图.

我已经在R中加载了数据并使用了该density()函数.所以,它是这样的

plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
     xlab = "duration(h)", ylab = "probability density")
Run Code Online (Sandbox Code Playgroud)

我是R的新手和这种分析.这是我通过谷歌找到的.我有一个情节,但我留下了一些问题.这是正确的功能来做我想做的事还是还有别的什么?

在图中我发现Y轴刻度为0 ... 1.5.我不知道它怎么可能是1.5,不应该是0 ... 1?

此外,我想得到一个更平滑的曲线.由于数据集非常大,所以线条实际上是锯齿状的.当我提出这个问题时,让它们平滑会更好.我该怎么做呢?

plot r distribution probability data-analysis

9
推荐指数
2
解决办法
3万
查看次数

"parse_dt"未从当前命名空间解析(lubridate)

我开始使用lubridate包收到此错误消息:

as.Date(ymd_hms("2014-1-1 12:31:15"))
Run Code Online (Sandbox Code Playgroud)

.Call中的错误("parse_dt",x,格式,TRUE):"parse_dt"未从当前命名空间解析(lubridate)

我之前从未遇到过这种情况,我只能lubridate在长脚本中使用深度(实际包中有几个嵌套函数)时才会创建此错误- 我不知道哪一行导致了问题(我已经调试了几个小时)现在没有任何运气).

而且,它似乎只发生在我使用Rstudio时,而不是在Rgui中运行相同的代码时.

一旦发生,我必须重新启动R lubridate才能再次工作.此外,在它发生后,我在我的全球环境中有这个对象:

> ls()
[1] "oldLC"
> oldLC
[1] "English_Australia.1252"
Run Code Online (Sandbox Code Playgroud)

我知道我应该发布可以复制的错误,但我不能自己重现这一点,我希望指针在哪里看!

R version 3.0.2 (2013-09-25)
Platform: x86_64-w64-mingw32/x64 (64-bit)

locale:
[1]  LC_COLLATE=English_Australia.1252  LC_CTYPE=English_Australia.1252   
[3] LC_MONETARY=English_Australia.1252 LC_NUMERIC=C                      
[5] LC_TIME=English_Australia.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] HIEv_0.3        RODBC_1.3-10    maptools_0.8-27 sp_1.0-14       stringr_0.6.2  
[6] plyr_1.8        RCurl_1.95-4.1  bitops_1.0-6    rjson_0.2.13    lubridate_1.3.3
[11] roxygen2_3.0.0 

loaded via a namespace (and not attached):
[1] brew_1.0-6      codetools_0.2-8 digest_0.6.4    foreign_0.8-57  grid_3.0.2 …
Run Code Online (Sandbox Code Playgroud)

r rstudio lubridate

9
推荐指数
1
解决办法
1425
查看次数

Python/Keras/Theano错误的自动编码器维度

我正在尝试遵循Deep Autoencoder Keras 示例.我得到了一个维度不匹配异常,但对于我的生活,我无法弄清楚为什么.当我只使用一个编码维度时它可以工作,但是当我堆叠它们时却不行.

例外:输入0与图层dense_18不兼容:
expected shape =(None,128),found shape =(None,32)*

错误就行了 decoder = Model(input=encoded_input, output=decoder_layer(encoded_input))

from keras.layers import Dense,Input
from keras.models import Model

import numpy as np

# this is the size of the encoded representations
encoding_dim = 32

#NPUT LAYER
input_img = Input(shape=(784,))

#ENCODE LAYER
# "encoded" is the encoded representation of the input
encoded = Dense(encoding_dim*4, activation='relu')(input_img)
encoded = Dense(encoding_dim*2, activation='relu')(encoded)
encoded = Dense(encoding_dim, activation='relu')(encoded)

#DECODED LAYER
# "decoded" is the lossy reconstruction of the input
decoded …
Run Code Online (Sandbox Code Playgroud)

machine-learning neural-network theano autoencoder keras

9
推荐指数
1
解决办法
1658
查看次数

在"|"之前提取字符串

我有一个数据集,其中列如下所示:

ABC|DEF|GHI,  
ABCD|EFG|HIJK,  
ABCDE|FGHI|JKL,  
DEF|GHIJ|KLM,  
GHI|JKLM|NO|PQRS,  
BCDE|FGHI|JKL  
Run Code Online (Sandbox Code Playgroud)

.... 等等

我需要提取出现在第一个|符号之前的字符.

在Excel中,我们将使用MID-SEARCH或LEFT-SEARCH的组合,R包含substr().

语法是 - substr(x, <start>,<stop>)

在我的情况下,start始终为1.对于stop,我们需要搜索|.我们怎样才能做到这一点?有其他方法可以做到这一点吗?

r extract substr

9
推荐指数
3
解决办法
2万
查看次数

如何在R中进行数据库连接/查询以进行单元测试

我正在使用该testthat库在R项目中进行单元测试.我想测试依赖于数据库查询的代码,但不测试实际的查询本身.换句话说,我想模拟数据库连接和查询(让它们返回预定的数据集或命中测试数据库).

我知道Ruby中有很多宝石,以及其他语言中的其他宝石,它们提供了这种功能.R有什么类似的吗?或者我该如何完成它?

some_file.R:

sqlQuery <- function(some_query) {
        chnl <- odbcConnect(get.db.name())
        data <- sqlQuery(chnl, query)
}
Run Code Online (Sandbox Code Playgroud)

从测试文件:

test_that("test query", {
    dataset <- sqlQuery("SELECT * FROM some_database_table")
    #How to make this not actually hit the production database?
    expect_equal(nrow(dataset), 2)
} )
Run Code Online (Sandbox Code Playgroud)

如果没有方便的包,testthat::with_mock()我最好的选择?

r testthat

9
推荐指数
1
解决办法
598
查看次数

计算成对差异的有效实现

假设我有一个数据框如下:

> foo = data.frame(x = 1:9, id = c(1, 1, 2, 2, 2, 3, 3, 3, 3))
> foo
  x id
1 1  1
2 2  1
3 3  2
4 4  2
5 5  2
6 6  3
7 7  3
8 8  3
9 9  3
Run Code Online (Sandbox Code Playgroud)

我想要一个非常有效的h(a,b)实现,它计算xi的总和(a - xi)*(b - xj),xj属于同一个id类.例如,我当前的实现是

h(a, b, foo){
  a.diff = a - foo$x
  b.diff = b - foo$x
  prod = a.diff%*%t(b.diff)
  id.indicator = as.matrix(ifelse(dist(foo$id, diag = T, upper = T),0,1)) + …
Run Code Online (Sandbox Code Playgroud)

r

9
推荐指数
2
解决办法
201
查看次数

数据框的转换是什么意思?

我被困在以下几行

import quandl,math
import pandas as pd
import numpy as np
from  sklearn import preprocessing ,cross_validation , svm
from sklearn.linear_model import  LinearRegression


df = quandl.get('WIKI/GOOGL')




df = df[['Adj. Open','Adj. High','Adj. Low','Adj. Close','Adj. Volume']]

df['HL_PCT'] = (df["Adj. High"] - df['Adj. Close'])/df['Adj. Close'] * 100
df['PCT_CHANGE'] = (df["Adj. Close"] - df['Adj. Open'])/df['Adj. Open'] * 100

df = df[['Adj. Close','HL_PCT','PCT_CHANGE','Adj. Open']]

forecast_col = 'Adj. Close'

df.fillna(-99999,inplace = True)

forecast_out = int(math.ceil(.1*len(df)))

df['label'] = df[forecast_col].shift(-forecast_out)
print df.head()
Run Code Online (Sandbox Code Playgroud)

我无法理解df [forecast_col] .shift(-forecast_out)的含义

请解释一下该命令,该怎么办?

python pandas quandl

9
推荐指数
1
解决办法
1万
查看次数

R - socketConnection

在套接字连接方面,我是一个完整的新手,我正在尝试学习如何在R中使用它们.我试图在R文档中按照"连接"的例子.

但是,在Rstudio中运行以下命令(运行R 3.0)时:

con1 <- socketConnection(port = 6011, server = TRUE)
Run Code Online (Sandbox Code Playgroud)

应用程序进入无限循环,我必须按停止按钮才能离开.结果我不能继续下一行的例子

writeLines(LETTERS, con1)
close(con1)
Run Code Online (Sandbox Code Playgroud)

有人能否解释我做错了什么?

r

8
推荐指数
1
解决办法
4286
查看次数

向下移动工作目录中的文件夹

我试图在R中直接向下移动一个文件夹.例如,我有一个foo/bar的工作目录,我想移动到foo/bar /子文件夹:

setwd("/Users/foo/bar")
getwd()
[1] "/Users/foo/bar"
setwd("~/subfolder")
Run Code Online (Sandbox Code Playgroud)

然后我收到:

setwd中的错误("〜/ subfolder"):无法更改工作目录

我究竟做错了什么?

r working-directory

8
推荐指数
1
解决办法
6331
查看次数

如何合并具有相同列名的列表以获得它们的联合

假设我有N个列表,它们都具有相同的列名.我想合并这些,以便我得到一个具有相同列的结果列表,但现在包含所有N列表中的条目.这是一个显示我想要的MWE:

  ls<-list()
ls[[1]]<-list("a"=1,
              "b"=2)
    ls[[2]]<-list("a"=3,
                  "b"=4)

#how to write a one-liner that produces lsTotal, which is the union of ls[[1]] and ls[[2]]?

lsTotal<-list("a"=c(1,3),
              "b"=c(2,4))  
Run Code Online (Sandbox Code Playgroud)

我发现了这个线程,我可以使用它Map(c, ls[[1]], ls[[2]]).然而,如果ls很长的话,写出来是很乏味的.有捷径吗?

r list nested-lists

8
推荐指数
1
解决办法
354
查看次数