I'd like to use python to scrape google scholar search results. I found two different script to do that, one is gscholar.py and the other is scholar.py
(can that one be used as a python library?).
Now, I should maybe say that I'm totally new to python, so sorry if I miss the obvious!
The problem is when I use gscholar.py
as explained in the README file, I get as a result
query() takes at least 2 arguments (1 given) …
I have a dataframe which looks a bit as produced by the following code (but much larger)
set.seed(10)
mat <- matrix(rbinom(200, size=1, prob = .5), ncol = 10)
Run Code Online (Sandbox Code Playgroud)
In the columns are issues and 1 indicates that an observation is interested in a specific issue. I want to generate a network comparing all observations and have a count of issues that each dyad is jointly interested in.
I have produced the following code, which seems to be working fine:
mat2 …
Run Code Online (Sandbox Code Playgroud) 我正在使用Hardin和Hilbe的书"Generalized Linear Models and Extension"(第二版,2007).作者提出,"日志链接通常用于响应数据,而不是OLS模型,而这些响应数据只能在连续尺度上采用正值".当然,他们还建议使用残差图来检查是否仍然可以使用使用身份链接的"正常"线性模型.
我试图在R中复制他们在STATA中所做的事情.实际上,我在STATA中没有日志链接的问题.但是,当使用R的glm函数调用相同的模型时,却指定family=gaussian(link="log")
我要求提供起始值.当我将它们全部设置为零时,我总是得到算法没有收敛的消息.选择其他值的消息有时是相同的,但我经常得到:
Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, :
NA/NaN/Inf in 'x'
Run Code Online (Sandbox Code Playgroud)
正如我所说,在STATA中,我可以在不设置起始值且没有错误的情况下运行这些模型.我尝试了很多不同的模型和不同的数据集,但问题总是一样的(除非我只包含一个单独的自变量).谁能告诉我为什么会出现这种情况,或者我做错了什么,或者为什么书中建议的模型可能不合适?我很感激任何帮助,谢谢!
编辑:作为再现错误的示例,请考虑可以在此处下载的数据集.加载此数据集后,我运行以下模型:
mod <- glm(betaplasma ~ age + vituse, family=gaussian(link="log"), data=data2, start=c(0,0,0))
这会产生算法未收敛的警告消息.
Edit2:我被要求提供该模型的STATA输出.这里是:
. glm betaplasma age vituse, link(log)
Iteration 0: log likelihood = -2162.1385
Iteration 1: log likelihood = -2096.4765
Iteration 2: log likelihood = -2076.2465
Iteration 3: log likelihood = -2076.2244
Iteration 4: …
Run Code Online (Sandbox Code Playgroud) 我有一个包含超过250,000个观测值的大型数据集,我想使用该TraMineR
包进行分析.我特别想用命令seqtree
和seqdist
,当我的例子中使用10,000观察一个子样本,工作正常.我的计算机可以管理的限制是大约20,000个观察.
我想使用所有观察结果,我确实可以访问一台能够做到这一点的超级计算机.但是,这并没有太大帮助,因为该过程仅在单个核心上运行.因此,我的问题是,是否可以将并行计算技术应用于上述命令?或者还有其他方法可以加快这个过程吗?任何帮助,将不胜感激!
我有一个关于从R中的向量中选择特定值的问题.更具体地说,我想从我的数据集中的给定变量中选择所有整数值(我想使用它们来对我的数据进行子集化).这是一个例子:
x <- seq(0,10,1/3)
Run Code Online (Sandbox Code Playgroud)
现在我想用整数来选择向量x中的所有观测值.我的第一个想法是使用is.integer
命令,但这不起作用.我找到了使用以下方法的解决方案:
> x==as.integer(x)
[1] TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE
FALSE TRUE FALSE FALSE TRUE
[17] FALSE FALSE TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE
FALSE TRUE FALSE FALSE TRUE
Run Code Online (Sandbox Code Playgroud)
现在我可以简单地输入
> which(x==as.integer(x))
[1] 1 4 7 10 13 16 19 22 25 28 31
Run Code Online (Sandbox Code Playgroud)
我得到了预期的结果(我可以使用这个向量来对我的数据集进行子集化).但是没有更直接的方法来选择整数值吗?
我有以下问题。运行有序 logit 模型后,我想要 R 的效果包来可视化结果。这工作得很好,我对两个自变量这样做了,然后我尝试合并这两个图。然而,这似乎不起作用。我在这里提供了一个可复制的示例,以便您可以自己看到我的问题:
library(car)
data(Chile)
mod <- polr(vote ~ age + log(income), data=Chile)
eff <- effect("log(income)", mod)
plot1 <- plot(eff, style="stacked",rug=F, key.args=list(space="right"))
eff2 <- effect("age", mod)
plot2 <- plot(eff2, style="stacked",rug=F, key.args=list(space="right"))
Run Code Online (Sandbox Code Playgroud)
我现在可以独立打印这两个图,但是当我尝试将它们绘制在一起时,第一个图被覆盖。我尝试设置par(mfrow=c(2,1))
,但没有成功。接下来我尝试了以下操作:
print(plot1, position=c(0, .5, 1, 1), more=T)
print(plot2, position=c(0,0, 1, .5))
Run Code Online (Sandbox Code Playgroud)
在后一种情况下,两个图的位置都很好,但是一旦我添加第二个图(或者更好,它被覆盖),第一个图仍然消失。任何如何防止这种行为的建议将不胜感激。