标签: stata

Heroku Rails应用程序的数据挖掘/统计分析选项?

我有一个托管在Heroku上的rails应用程序,我想要整合一些实时数据分析.理想情况下,我想找出一种运行广义增强回归模型的方法,我知道这两种模型都可用于R(http://cran.r-project.org/web/packages/gbm/index.html)和Stata(http://www.stata-journal.com/article.html?article=st0087).我想保存生成的gbm树,然后在我的应用程序中,使用它来根据用户输入预测新结果.

如果那是不可能的,我会愿意使用其他数据挖掘算法.对我来说最重要的是能够将它集成到我的Heroku应用程序中,以便它可以在没有本地机器的情况下运行.

我研究过的选项:

1)Heroku支持建议将R库存放到红宝石中.我对红宝石和铁轨比较陌生,这对我来说是可行的.我四处寻找有关在宝石中销售图书馆的说明,但是找不到多少.

2)这里的另一个帖子(http://stackoverflow.com/questions/6495232/statistic-engine-that-work-with-heroku)提到了CloudNumbers,但似乎无法从Rails应用程序调用该服务.

3)在他们的一个案例研究中,Heroku提到了FlightCaster,它使用Clojure,Hadoop和EC2进行机器学习(http://www.infoq.com/articles/flightcaster-clojure-rails).我看到Heroku支持Clojure,但有没有办法将它(或更具体的Incanter)集成到我的Rails应用程序中?

如果您有任何想法,请告诉我.

ruby r heroku stata ruby-on-rails-3

7
推荐指数
1
解决办法
2965
查看次数

是否有一个突出显示Stata语法的命令行编辑器?

我的互联网连接非常慢,因此我在没有GUI的服务器上执行批处理文件,即直接从终端执行.但是,我经常需要在代码中进行一些更改,并且突出显示Stata语法的文本编辑器不会受到影响.有吗?

remote-server stata

7
推荐指数
3
解决办法
2746
查看次数

Hadoop和Stata

有没有人有使用Stata和Hadoop的经验?Stata 13现在有一个Java Plugin API,所以我认为让它们玩得很好应该是直截了当的.

我特别感兴趣的是能够解析博客数据,使其成为适合统计分析的形式.

这个问题最近出现在Statalist上,但没有回应,所以我想我会在这里尝试一下观众更有可能体验这项技术.

hadoop hive apache-pig stata

7
推荐指数
1
解决办法
1309
查看次数

在Stata中的if命令中使用值标签

我正在处理一组代表不同年份调查的dta文件.方便的是,每年对"country"变量使用不同的值,因此我尝试设置每年匹配的"country"值标签.

我在比较值标签方面遇到了麻烦,但我无法提出正确的语法.现在我有以下内容:

replace country=1 if countryO=="Japan"
replace country=2 if countryO=="South Korea" | countryO=="Korea"
replace country=3 if countryO=="China"
replace country=4 if countryO=="Malaysia"
Run Code Online (Sandbox Code Playgroud)

但这不起作用,因为"日本"是价值标签,而不是实际价值.我如何告诉Stata我正在比较价值标签?我知道这很简单,但我已经在谷歌上呆了一个小时了,并没有找到正确的方式来提出这个问题.任何帮助赞赏.

stata

7
推荐指数
1
解决办法
6214
查看次数

生成包含字符串变量中字符数的变量

在调查数据集中,我有一个str244带有定性响应的字符串变量(类型:).我想计算每个响应/字符串中的字符数,并生成一个包含此数字的新变量.

使用egenmore我已经计算了使用的单词数nwords,但我找不到计数字符的对应物.

例:

egen countvar = nwords(stringvar)
Run Code Online (Sandbox Code Playgroud)

其中countvar是新变量名称,stringvar是字符串变量.

是否egen存在计算字符的功能?

stata

7
推荐指数
1
解决办法
1万
查看次数

如何获得p值的更多数字?

有人知道一种简单的方法可以让Stata在运行Tobit回归时显示p值以上的三位数吗?

通常Stata报告p值是.001或者.065,但我希望看到更多的数字,例如,.0011123.065320.

需要说明的是,我不希望(必然)改变回归表中数据的生成方式.

我只希望能够让Stata显示我感兴趣的那些p值的更多数字.

regression stata

6
推荐指数
2
解决办法
1万
查看次数

使用memisc将stata .dta文件导入R

我有一个700mb .dta Stata文件,有2800万个观测值和14个列变量

当我尝试使用外部的 read.dta()函数导入R 时,我的8GB机器上的RAM耗尽(页面输出非常快速地射入GB).

staph <- read.dta("Staph_1999_2010.dta")
Run Code Online (Sandbox Code Playgroud)

我在周围寻找,听起来更有效的替代方案是使用memisc包中的Stata.file()函数.

我打电话的时候:

staph <- Stata.file("Staph_1999_2010.dta")
Run Code Online (Sandbox Code Playgroud)

我得到一个段错误:

*** caught segfault ***
address 0xd5d2b920, cause 'memory not mapped'

Traceback:
 1: .Call("dta_read_labels", bf, lbllen, padding)
 2: dta.read.labels(bf, len.lbl, 3)
 3: get.dictionary.dta(dta)
 4: Stata.file("Staph_1999_2010.dta")
Run Code Online (Sandbox Code Playgroud)

我发现Stata.file()的文档很难理解.

(1)我使用Stata.file()得当吗?

(2)Stata.file()返回像read.dta()这样的数据帧吗?

(3)如果我Stata.file()正确使用,我该如何解决我得到的错误?

memory r stata dta

6
推荐指数
0
解决办法
1137
查看次数

Subtaime Text 3 with Stata(Enhanced) - 为每个命令打开Stata的新实例

我是一个全新的Sublime Text用户.我正在尝试使Stata(增强版)插件适用于Sublime Text 3.我在W7机器上.

我已经安装了该插件并按照说明编辑了Stata Enhanced(windows).sublime-settings文件,如下所示:

{"stata_version":13,"stata_name":"C:/ Program Files(x86)/Stata13/StataMP-64.exe"}

而且我也改变了Stata的偏好,这样Stata就可以按照指示自动运行do-files.

它的工作原理:使用Ctrl + Enter Stata运行Sublime Text的do-files.但是,每次运行命令时,它都会打开一个新的Stata实例.这是非常不切实际的,但我不知道该怎么做.自述文件没有提到这个问题,也无法在网上找到解决方案.所以我很茫然:你知道怎么办吗?

stata sublimetext3

6
推荐指数
1
解决办法
4072
查看次数

将Stata翻译为R:崩溃

刚刚遇到一个.do我需要翻译的文件,R因为我没有Stata许可证; 我的Stata生锈了,那么有人可以确认代码是在做我认为的吗?

为了重现性,我将把它翻译成我在网上找到的数据集,特别是奶制品数据集(p004),它是Chatterjee,Hadi和Price的教科书的一部分.

这是Stata代码:

collapse (min) min_protein = protein /// 
         (mean) avg_protein = protein /// 
         (median) median_protein = protein /// 
         (sd) sd_protein = protein /// 
         if protein > 2.8, by(lactatio)
Run Code Online (Sandbox Code Playgroud)

以下是我认为它在data.table语法中的作用:

library(data.table)
library(foreign)
DT = read.dta("p004.dta")
setDT(DT)

DT[protein > 2.8,
   .(min_protein = min(protein),
     avg_protein = mean(protein),
     median_protein = median(protein),
     sd_protein = sd(protein)),
   keyby = lactatio]

#    lactatio min_protein avg_protein median_protein sd_protein
# 1:        1         2.9    3.162632           3.10  0.2180803
# 2:        2         2.9 …
Run Code Online (Sandbox Code Playgroud)

r code-translation stata data.table

6
推荐指数
1
解决办法
2388
查看次数

R 中生存包的 clogit 回归的稳健标准误差

我正在尝试从 R 中的生存包中获取 clogit 回归的可靠标准错误。在此过程中,我尝试使用该选项复制 Stata 命令报告的标准clogit错误vce(robust)

我的 R 公式是

conditional_logit <- clogit(dependent_variable ~ independent_variable + some_controls + strata(year), method= "exact", data = data_frame)
Run Code Online (Sandbox Code Playgroud)

将参数添加robust = TRUE到函数失败并出现错误:

Error in residuals.coxph(fit2, type = "dfbeta", weighted = TRUE) : 
score residuals are not available for the exact method
Run Code Online (Sandbox Code Playgroud)

任何通过三明治或 plm 包提取稳健标准错误(如此处、此处、此处和此处建议)的尝试都会失败出现相同错误。类似地,clogit 函数包含一个在使用该方法时停止尝试计算稳健标准误差的条件exact(第 44 行)。但是,conditional_logit$residuals 和conditional_logit$score 存在于clogit 回归对象中。

如果有人能帮助回答以下问题,我将不胜感激:

  • 计算“精确”条件逻辑回归的稳健标准误差通常是不可能或“错误”的吗?如果是这样,为什么 Stata 允许这样做?
  • 如果不是:我如何计算 R 中 …

r robust standard-error stata logistic-regression

6
推荐指数
1
解决办法
1878
查看次数