小编jan*_*cki的帖子

如何将前1000行.csv文件读入R?

我有非常大的.csv文件,大约几GB.
我想先读几千行.有没有什么方法可以有效地做到这一点?

r

49
推荐指数
2
解决办法
7万
查看次数

使用gitlab的nginx来提供另一个应用程序

您好我已经使用此https://gitlab.com/gitlab-org/omnibus-gitlab/blob/master/README.md#installation安装了Gitlab

现在我想使用nginx来提供除gitlab应用程序以外的其他内容我该怎么做呢

  • 我需要修改的配置文件在哪里
  • 如何指向像/ var/www这样的目录,以便nginx知道这是另一个应用程序的根目录.

更新(忘了提到我在Red Hat 6.5,Debian/Ubuntu解决方案欢迎下运行它)

nginx gitlab gitlab-ci

30
推荐指数
4
解决办法
1万
查看次数

从两个R会话同时访问环境

R在技术上是否可行?

我想用准备好的R6对象(环境类)运行一个闪亮的实例,使用它的方法 - 大多数只读.
虽然在闪亮的应用程序运行的同时我想调用我的R6的其他方法 - 读/写.
Shiny R会话可以是我的R6对象的主机,而第二个会话将从R控制台以预定的R脚本/交互方式调用.
目前我认为我可以做的是直接从闪烁的按钮中获取R脚本,但这限制了交互性.

r shiny r6

21
推荐指数
1
解决办法
1439
查看次数

我可以从外部应用程序调用构建R服务器REST API所需的建议吗?

我已经看过很多关于从其他RESTful API服务中使用R来消费数据的文章,但我真的很难找到有关反向的任何文章.我对R是服务器感兴趣,而不是客户端.我想要一个Node.js应用程序来调用R服务器的RESTful API,这样我就可以利用特定的分析功能,例如多季节性预测.有人有主意吗?

r node.js rapache opencpu shiny

18
推荐指数
2
解决办法
5380
查看次数

通过参考R中的向量进行子分配

我能以某种方式通过参考原子矢量使用子分配吗?
当然没有将它包装在1列data.table中使用:=.

library(data.table)
N <- 5e7
x <- sample(letters, N, TRUE)
X <- data.table(x = x)
upd_i <- sample(N, 1L, FALSE)
system.time(x[upd_i] <- NA_character_)
#    user  system elapsed 
#    0.11    0.06    0.17 
system.time(X[upd_i, x := NA_character_])
#    user  system elapsed 
#    0.00    0.00    0.03 
Run Code Online (Sandbox Code Playgroud)

如果R6可以提供帮助,那我就开放R6解决方案,因为它已经是我的一个解决方案了.
我已经检查过<-内部R6对象仍然会复制:gist.

r data.table r6

18
推荐指数
2
解决办法
500
查看次数

时态数据库设计,带有扭曲(实时与草稿行)

我正在考虑实现对象版本控制,需要同时拥有实时和草稿对象,并且可以使用来自某人经验的见解,因为我开始怀疑它是否有可能没有可能可怕的黑客攻击.

为了示例,我将其分解为带有标签的帖子,但我的用例更为一般(涉及缓慢变化的维度 - http://en.wikipedia.org/wiki/Slowly_changing_dimension).

假设您有一个posts表,一个tags表和一个post2tag表:

posts (
 id
)

tags (
 id
)

post2tag (
 post_id fkey posts(id),
 tag_id fkey tags(id)
)
Run Code Online (Sandbox Code Playgroud)

我需要一些东西:

  1. 能够准确显示帖子在任意日期时间的样子,包括已删除的行.
  2. 对于完整的审计跟踪,跟踪谁正在编辑什么.
  3. 需要一组物化视图("实时"表)以保持参照完整性(即日志记录对开发人员应该是透明的).
  4. 需要适当快速的实时最新的草稿行.
  5. 能够有一个帖子的帖子与现场帖子共存.

我一直在研究各种选择.到目前为止,我提出的最好的(没有点#4 /#5)看起来有点像SCD type6-hybrid设置,但是没有当前布尔值,而是当前行的物化视图.出于所有意图和目的,它看起来像这样:

posts (
 id pkey,
 public,
 created_at,
 updated_at,
 updated_by
)

post_revs (
 id,
 rev pkey,
 public,
 created_at,
 created_by,
 deleted_at
)

tags (
 id pkey,
 public,
 created_at,
 updated_at,
 updated_by
)


tag_revs (
 id,
 public,
 rev pkey,
 created_at,
 created_by,
 deleted_at
)

post2tag (
 post_id fkey posts(id),
 tag_id fkey tags(id), …
Run Code Online (Sandbox Code Playgroud)

sql database postgresql database-design anchor-modeling

17
推荐指数
2
解决办法
6379
查看次数

自适应移动平均 - R中的最佳性能

我正在寻找R中滚动/滑动窗口函数方面的一些性能提升.这是一个非常常见的任务,可用于任何有序的观测数据集.我想分享一些我的发现,也许有人能够提供反馈,使其更快.
重要的是我专注于案例align="right"和自适应滚动窗口,因此width是一个向量(与我们的观察向量相同的长度).如果我们有width标量,那么已经有非常好的函数zooTTR包非常难以击败(4年后:它比我预期的要容易),因为其中一些甚至使用Fortran(但仍然是用户定义的)使用下面提到的FUN可以更快wapply.
RcppRoll由于其出色的性能,包值得值得一提,但到目前为止还没有能够回答这个问题的功能.如果有人可以扩展它以回答这个问题,那将会很棒.

考虑一下我们有以下数据:

x = c(120,105,118,140,142,141,135,152,154,138,125,132,131,120)
plot(x, type="l")
Run Code Online (Sandbox Code Playgroud)

大块make_x的情节

我们希望在x带有可变滚动窗口的矢量上应用滚动函数width.

set.seed(1)
width = sample(2:4,length(x),TRUE)
Run Code Online (Sandbox Code Playgroud)

在这种特殊情况下,我们将不得不滚动功能适应samplec(2,3,4).
我们将应用mean功能,预期结果:

r = f(x, width, FUN = mean)
print(r)
##  [1]       NA       NA 114.3333 120.7500 141.0000 135.2500 139.5000
##  [8] 142.6667 147.0000 146.0000 131.5000 128.5000 131.5000 127.6667
plot(x, type="l")
lines(r, col="red")
Run Code Online (Sandbox Code Playgroud)

大块make_results的情节

任何指标都可用于产生自width变量作为自适应移动平均线的不同变体或任何其他函数.

寻找最佳表现.

r zoo mapply rollapply data.table

16
推荐指数
3
解决办法
5555
查看次数

RStudio项目和子目录中的git存储库

在RStudio中开发包时.
默认情况下,RStudio假设您的包目录是项目目录,它看起来像这样:
在此输入图像描述

但是您可以将包位置指向项目目录的子目录,它看起来像这样:
在此输入图像描述

这样,您可以将项目文件的某些部分保存在根项目目录中,而不包含在包中.你不需要设置git ignore等.

但是如果你想添加RStudio git repo功能,你不能将你的git repo指向子目录,即使你已经在你的包dir(而不是项目目录)中创建了git repo,你也无法在RStudio中设置它.我坚持:
在此输入图像描述

有没有办法在RStudio中启用git存储库,在RStudio项目的子目录中有git存储库?也许一些.Rproj配置调整?

git r devtools rstudio

16
推荐指数
1
解决办法
1138
查看次数

在R CMD检查期间引发NOTE异常

有没有什么方法可以在检查测试中的单元测试中提出我自己的NOTE异常...步骤R CMD check
一般来说,00check.log如果数据库在单元测试期间不可用,我想要注意.
肮脏的解决方案欢迎

更新:实际上我看到了更多用于此类功能的用例,增加了赏金.

r cran r-package

16
推荐指数
1
解决办法
209
查看次数

有没有数据仓库框架?

我有很多mysql数据需要从中生成报告.它主要是历史数据,因此它不会发生太大变化,但它的重量很容易达到20-30千兆字节,预计会增长.我目前有一些PHP脚本集合,可以执行一些复杂的查询并输出csv和excel文件.我还使用带有书签查询的phpMyAdmin.我手动编辑它们来更改参数.数据量正在增长,需要访问数据的人数也在增长,因此我正在花时间改善这种情况.

前几天我开始阅读有关数据仓库的内容,似乎这个区域与我需要做的事情有关.我读过一些 文章,甚至还在等一本书.我想我已经掌握了这些系统的功能和可能性.

为我的数据创建一个报告系统一直在todo列表中,但直到最近我才认为这将是一个非常小众的计划冒险.由于我现在知道数据仓库是常见的事情,我认为必须有某种报告/仓库框架可以轻松开发.我很乐意跳过编写接口和脚本来安排和发送电子邮件报告等,并坚持编写查询和建立关系.

我大部分都是一个灯泡家伙,但我不是在转换语言或平台.我只需要一个更强大的解决方案,因为我的一次性脚本不能很好地扩展.

那么哪里是开始的好地方?

frameworks reporting data-warehouse anchor-modeling

15
推荐指数
2
解决办法
4221
查看次数