我有一个托管在Heroku上的rails应用程序,我想要整合一些实时数据分析.理想情况下,我想找出一种运行广义增强回归模型的方法,我知道这两种模型都可用于R(http://cran.r-project.org/web/packages/gbm/index.html)和Stata(http://www.stata-journal.com/article.html?article=st0087).我想保存生成的gbm树,然后在我的应用程序中,使用它来根据用户输入预测新结果.
如果那是不可能的,我会愿意使用其他数据挖掘算法.对我来说最重要的是能够将它集成到我的Heroku应用程序中,以便它可以在没有本地机器的情况下运行.
我研究过的选项:
1)Heroku支持建议将R库存放到红宝石中.我对红宝石和铁轨比较陌生,这对我来说是可行的.我四处寻找有关在宝石中销售图书馆的说明,但是找不到多少.
2)这里的另一个帖子(http://stackoverflow.com/questions/6495232/statistic-engine-that-work-with-heroku)提到了CloudNumbers,但似乎无法从Rails应用程序调用该服务.
3)在他们的一个案例研究中,Heroku提到了FlightCaster,它使用Clojure,Hadoop和EC2进行机器学习(http://www.infoq.com/articles/flightcaster-clojure-rails).我看到Heroku支持Clojure,但有没有办法将它(或更具体的Incanter)集成到我的Rails应用程序中?
如果您有任何想法,请告诉我.
我的互联网连接非常慢,因此我在没有GUI的服务器上执行批处理文件,即直接从终端执行.但是,我经常需要在代码中进行一些更改,并且突出显示Stata语法的文本编辑器不会受到影响.有吗?
有没有人有使用Stata和Hadoop的经验?Stata 13现在有一个Java Plugin API,所以我认为让它们玩得很好应该是直截了当的.
我特别感兴趣的是能够解析博客数据,使其成为适合统计分析的形式.
这个问题最近出现在Statalist上,但没有回应,所以我想我会在这里尝试一下观众更有可能体验这项技术.
我正在处理一组代表不同年份调查的dta文件.方便的是,每年对"country"变量使用不同的值,因此我尝试设置每年匹配的"country"值标签.
我在比较值标签方面遇到了麻烦,但我无法提出正确的语法.现在我有以下内容:
replace country=1 if countryO=="Japan"
replace country=2 if countryO=="South Korea" | countryO=="Korea"
replace country=3 if countryO=="China"
replace country=4 if countryO=="Malaysia"
Run Code Online (Sandbox Code Playgroud)
但这不起作用,因为"日本"是价值标签,而不是实际价值.我如何告诉Stata我正在比较价值标签?我知道这很简单,但我已经在谷歌上呆了一个小时了,并没有找到正确的方式来提出这个问题.任何帮助赞赏.
在调查数据集中,我有一个str244带有定性响应的字符串变量(类型:).我想计算每个响应/字符串中的字符数,并生成一个包含此数字的新变量.
使用egenmore我已经计算了使用的单词数nwords,但我找不到计数字符的对应物.
例:
egen countvar = nwords(stringvar)
Run Code Online (Sandbox Code Playgroud)
其中countvar是新变量名称,stringvar是字符串变量.
是否egen存在计算字符的功能?
有人知道一种简单的方法可以让Stata在运行Tobit回归时显示p值以上的三位数吗?
通常Stata报告p值是.001或者.065,但我希望看到更多的数字,例如,.0011123或.065320.
需要说明的是,我不希望(必然)改变回归表中数据的生成方式.
我只希望能够让Stata显示我感兴趣的那些p值的更多数字.
我有一个700mb .dta Stata文件,有2800万个观测值和14个列变量
当我尝试使用外部的 read.dta()函数导入R 时,我的8GB机器上的RAM耗尽(页面输出非常快速地射入GB).
staph <- read.dta("Staph_1999_2010.dta")
Run Code Online (Sandbox Code Playgroud)
我在周围寻找,听起来更有效的替代方案是使用memisc包中的Stata.file()函数.
我打电话的时候:
staph <- Stata.file("Staph_1999_2010.dta")
Run Code Online (Sandbox Code Playgroud)
我得到一个段错误:
*** caught segfault ***
address 0xd5d2b920, cause 'memory not mapped'
Traceback:
1: .Call("dta_read_labels", bf, lbllen, padding)
2: dta.read.labels(bf, len.lbl, 3)
3: get.dictionary.dta(dta)
4: Stata.file("Staph_1999_2010.dta")
Run Code Online (Sandbox Code Playgroud)
我发现Stata.file()的文档很难理解.
(1)我使用Stata.file()得当吗?
(2)Stata.file()返回像read.dta()这样的数据帧吗?
(3)如果我Stata.file()正确使用,我该如何解决我得到的错误?
我是一个全新的Sublime Text用户.我正在尝试使Stata(增强版)插件适用于Sublime Text 3.我在W7机器上.
我已经安装了该插件并按照说明编辑了Stata Enhanced(windows).sublime-settings文件,如下所示:
{"stata_version":13,"stata_name":"C:/ Program Files(x86)/Stata13/StataMP-64.exe"}
而且我也改变了Stata的偏好,这样Stata就可以按照指示自动运行do-files.
它的工作原理:使用Ctrl + Enter Stata运行Sublime Text的do-files.但是,每次运行命令时,它都会打开一个新的Stata实例.这是非常不切实际的,但我不知道该怎么做.自述文件没有提到这个问题,也无法在网上找到解决方案.所以我很茫然:你知道怎么办吗?
刚刚遇到一个.do我需要翻译的文件,R因为我没有Stata许可证; 我的Stata生锈了,那么有人可以确认代码是在做我认为的吗?
为了重现性,我将把它翻译成我在网上找到的数据集,特别是奶制品数据集(p004),它是Chatterjee,Hadi和Price的教科书的一部分.
这是Stata代码:
collapse (min) min_protein = protein ///
(mean) avg_protein = protein ///
(median) median_protein = protein ///
(sd) sd_protein = protein ///
if protein > 2.8, by(lactatio)
Run Code Online (Sandbox Code Playgroud)
以下是我认为它在data.table语法中的作用:
library(data.table)
library(foreign)
DT = read.dta("p004.dta")
setDT(DT)
DT[protein > 2.8,
.(min_protein = min(protein),
avg_protein = mean(protein),
median_protein = median(protein),
sd_protein = sd(protein)),
keyby = lactatio]
# lactatio min_protein avg_protein median_protein sd_protein
# 1: 1 2.9 3.162632 3.10 0.2180803
# 2: 2 2.9 …Run Code Online (Sandbox Code Playgroud) 我正在尝试从 R 中的生存包中获取 clogit 回归的可靠标准错误。在此过程中,我尝试使用该选项复制 Stata 命令报告的标准clogit错误vce(robust)。
我的 R 公式是
conditional_logit <- clogit(dependent_variable ~ independent_variable + some_controls + strata(year), method= "exact", data = data_frame)
Run Code Online (Sandbox Code Playgroud)
将参数添加robust = TRUE到函数失败并出现错误:
Error in residuals.coxph(fit2, type = "dfbeta", weighted = TRUE) :
score residuals are not available for the exact method
Run Code Online (Sandbox Code Playgroud)
任何通过三明治或 plm 包提取稳健标准错误(如此处、此处、此处和此处建议)的尝试都会失败并出现相同的错误。类似地,clogit 函数包含一个在使用该方法时停止尝试计算稳健标准误差的条件exact(第 44 行)。但是,conditional_logit$residuals 和conditional_logit$score 存在于clogit 回归对象中。
如果有人能帮助回答以下问题,我将不胜感激:
stata ×10
r ×4
apache-pig ×1
data.table ×1
dta ×1
hadoop ×1
heroku ×1
hive ×1
memory ×1
regression ×1
robust ×1
ruby ×1
sublimetext3 ×1