小编Flo*_*low的帖子

使用Python(或R)提取Google学术搜索结果

I'd like to use python to scrape google scholar search results. I found two different script to do that, one is gscholar.py and the other is scholar.py (can that one be used as a python library?).

Now, I should maybe say that I'm totally new to python, so sorry if I miss the obvious!

The problem is when I use gscholar.py as explained in the README file, I get as a result

query() takes at least 2 arguments (1 given) …

python r google-scholar

11
推荐指数
2
解决办法
2万
查看次数

Faster matrix multiplication by replacing a double loop

I have a dataframe which looks a bit as produced by the following code (but much larger)

set.seed(10)    
mat <- matrix(rbinom(200, size=1, prob = .5), ncol = 10)
Run Code Online (Sandbox Code Playgroud)

In the columns are issues and 1 indicates that an observation is interested in a specific issue. I want to generate a network comparing all observations and have a count of issues that each dyad is jointly interested in.

I have produced the following code, which seems to be working fine:

mat2 …
Run Code Online (Sandbox Code Playgroud)

loops r matrix-multiplication

7
推荐指数
2
解决办法
72
查看次数

R中的GLM功能,日志链接不起作用

我正在使用Hardin和Hilbe的书"Generalized Linear Models and Extension"(第二版,2007).作者提出,"日志链接通常用于响应数据,而不是OLS模型,而这些响应数据只能在连续尺度上采用正值".当然,他们还建议使用残差图来检查是否仍然可以使用使用身份链接的"正常"线性模型.

我试图在R中复制他们在STATA中所做的事情.实际上,我在STATA中没有日志链接的问题.但是,当使用R的glm函数调用相同的模型时,却指定family=gaussian(link="log")我要求提供起始值.当我将它们全部设置为零时,我总是得到算法没有收敛的消息.选择其他值的消息有时是相同的,但我经常得到:

Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  :
     NA/NaN/Inf in 'x'
Run Code Online (Sandbox Code Playgroud)

正如我所说,在STATA中,我可以在不设置起始值且没有错误的情况下运行这些模型.我尝试了很多不同的模型和不同的数据集,但问题总是一样的(除非我只包含一个单独的自变量).谁能告诉我为什么会出现这种情况,或者我做错了什么,或者为什么书中建议的模型可能不合适?我很感激任何帮助,谢谢!

编辑:作为再现错误的示例,请考虑可以在此处下载的数据集.加载此数据集后,我运行以下模型:

mod <- glm(betaplasma ~ age + vituse, family=gaussian(link="log"), data=data2, start=c(0,0,0))

这会产生算法未收敛的警告消息.

Edit2:我被要求提供该模型的STATA输出.这里是:

. glm betaplasma age vituse, link(log)

Iteration 0:   log likelihood = -2162.1385  
Iteration 1:   log likelihood = -2096.4765  
Iteration 2:   log likelihood = -2076.2465  
Iteration 3:   log likelihood = -2076.2244  
Iteration 4: …
Run Code Online (Sandbox Code Playgroud)

r stata

5
推荐指数
2
解决办法
1万
查看次数

TraMineR的并行计算

我有一个包含超过250,000个观测值的大型数据集,我想使用该TraMineR包进行分析.我特别想用命令seqtreeseqdist,当我的例子中使用10,000观察一个子样本,工作正常.我的计算机可以管理的限制是大约20,000个观察.

我想使用所有观察结果,我确实可以访问一台能够做到这一点的超级计算机.但是,这并没有太大帮助,因为该过程仅在单个核心上运行.因此,我的问题是,是否可以将并行计算技术应用于上述命令?或者还有其他方法可以加快这个过程吗?任何帮助,将不胜感激!

parallel-processing r traminer

5
推荐指数
1
解决办法
408
查看次数

仅从矢量中选择整数

我有一个关于从R中的向量中选择特定值的问题.更具体地说,我想从我的数据集中的给定变量中选择所有整数值(我想使用它们来对我的数据进行子集化).这是一个例子:

x <- seq(0,10,1/3)
Run Code Online (Sandbox Code Playgroud)

现在我想用整数来选择向量x中的所有观测值.我的第一个想法是使用is.integer命令,但这不起作用.我找到了使用以下方法的解决方案:

> x==as.integer(x)
 [1]  TRUE FALSE FALSE  TRUE FALSE FALSE  TRUE FALSE FALSE  TRUE FALSE
FALSE TRUE FALSE FALSE  TRUE
[17]  FALSE FALSE  TRUE FALSE FALSE  TRUE FALSE FALSE  TRUE FALSE 
FALSE  TRUE FALSE FALSE  TRUE
Run Code Online (Sandbox Code Playgroud)

现在我可以简单地输入

> which(x==as.integer(x))
 [1]  1  4  7 10 13 16 19 22 25 28 31
Run Code Online (Sandbox Code Playgroud)

我得到了预期的结果(我可以使用这个向量来对我的数据集进行子集化).但是没有更直接的方法来选择整数值吗?

r

4
推荐指数
2
解决办法
3571
查看次数

合并使用 R 中的效果包创建的两个图

我有以下问题。运行有序 logit 模型后,我想要 R 的效果包来可视化结果。这工作得很好,我对两个自变量这样做了,然后我尝试合并这两个图。然而,这似乎不起作用。我在这里提供了一个可复制的示例,以便您可以自己看到我的问题:

library(car)
data(Chile)
mod <- polr(vote ~ age + log(income), data=Chile)

eff <- effect("log(income)", mod)
plot1 <- plot(eff, style="stacked",rug=F, key.args=list(space="right"))

eff2 <- effect("age", mod)
plot2 <- plot(eff2, style="stacked",rug=F, key.args=list(space="right"))
Run Code Online (Sandbox Code Playgroud)

我现在可以独立打印这两个图,但是当我尝试将它们绘制在一起时,第一个图被覆盖。我尝试设置par(mfrow=c(2,1)),但没有成功。接下来我尝试了以下操作:

print(plot1, position=c(0, .5, 1, 1), more=T)
print(plot2, position=c(0,0, 1, .5))
Run Code Online (Sandbox Code Playgroud)

在后一种情况下,两个图的位置都很好,但是一旦我添加第二个图(或者更好,它被覆盖),第一个图仍然消失。任何如何防止这种行为的建议将不胜感激。

graphics r effects

2
推荐指数
1
解决办法
2799
查看次数