标签: google-scholar

I'd like to use python to scrape google scholar search results. I found two different script to do that, one is gscholar.py and the other is scholar.py (can that one be used as a python library?).

Now, I should maybe say that I'm totally new to python, so sorry if I miss the obvious!

The problem is when I use gscholar.py as explained in the README file, I get as a result

query() takes at least 2 arguments (1 given) …

python r google-scholar

Flo*_*low

2015 04-09

11
推荐指数

2
解决办法

2万
查看次数

使用tor和python来刮掉谷歌学者

我正在开展一个项目来分析如何引用期刊文章.我有一个大型的期刊文章名称文件.我打算将它们传递给Google学术搜索,并查看每个引用的引用次数.

这是我遵循的策略:

使用http://www.icir.org/christian/scholar.html上的 "scholar.py" .这是一个预先编写的python脚本,可以搜索谷歌学者并以CSV格式返回首次点击的信息(包括引用次数)
谷歌学者在一定数量的搜索后阻止你(我有大约3000个文章标题要查询).我发现,大多数人使用Tor(如何通过Tor的在Python？让urllib2的请求,并防止自定义Web爬虫被封锁)来解决这个问题.Tor是一种服务,每隔几分钟就会为您提供一个随机IP地址.

我有scholar.py和tor成功设置和工作.我不熟悉python或库urllib2,并想知道scholar.py需要进行哪些修改,以便查询通过Tor进行路由.

我也很乐意为大众谷歌学者查询提供一种更容易(并且可能有很大差异)的方法,如果存在的话.

提前致谢

python tor web-scraping google-scholar

kri*_*nan

2017 05-23

10
推荐指数

1
解决办法

5627
查看次数

Google学术搜索与Matlab

我想通过matlab脚本自动从Google Scholar获取一些数据.我最感兴趣的是Google Scholar的Bibtex条目和正向引用功能等数据.但是,似乎Google学术搜索没有API,有没有办法使用Matlab从Google学术搜索中自动获取书目数据？是否有一些工具或代码可用于此？

matlab google-scholar

Art*_*eev

lucky-day

8
推荐指数

2
解决办法

4036
查看次数

使用R从Google学者那里获取论文

使用google-scholar和R,我想知道谁在引用某篇论文.

现有的包(如学者)面向H指数分析:研究人员的统计数据.

我想给目标纸作为输入.一个示例网址是:

https://scholar.google.co.uk/scholar?oi=bibs&hl=en&cites=12939847369066114508

然后R应该抓住这些引文页面(谷歌学者分页这些),然后返回一系列引用目标的论文(最多500个或更多引用).然后我们在标题中搜索关键词,列出期刊和引用作者等.

关于如何做到这一点的任何线索？或者是从字面上刮下每一页？(我可以使用复制和粘贴进行一次性操作).

看起来这应该是一个普遍有用的功能,如播种系统评论,所以有人添加到一个包可能会增加他们的H :-)

r web-scraping google-scholar

tim*_*tim

lucky-day

8
推荐指数

1
解决办法

2210
查看次数

抓取Google学术搜索

作为我研究的一部分,我试图获取大量学术文章的信息.文章数量大约为数千.由于谷歌学术搜索没有API,我试图抓住/爬行学者.现在我现在,这在技术上是针对EULA的,但我试图对此非常礼貌和合理.我了解Google不允许机器人将流量控制在合理范围内.我开始测试一批约500个请求,每个请求之间有1个.关于前100个请求后我被阻止了.我尝试了多种其他策略,包括:

将暂停时间延长至20秒并为其添加一些随机噪声
使暂停记录正常分布(以便大多数暂停大约为秒,但偶尔会有几分钟甚至更长的暂停)
在请求块之间进行长时间暂停(几个小时)(~100).

我怀疑,在这一点上,我的剧本正在增加任何人类所需的大量流量.但是,在约100-200个请求之后,我总是被阻止.有没有人知道一个很好的策略来克服这个问题(我不关心它是否需要数周,只要它是自动化的).此外,是否有人直接与谷歌签约并要求获得类似的事情(研究等)？是否值得尝试编写它们并解释我正在尝试做什么以及如何做,并看看我是否可以获得我的项目的许可？我将如何与他们联系？谢谢!

python web-crawler google-scholar

Pet*_*ter

lucky-day

7
推荐指数

1
解决办法

2619
查看次数

使用 R 检索期刊论文的引文

我想使用 R 获取引用科学期刊论文的文章列表。

我所掌握的唯一信息是文章的标题，例如“使用福林酚试剂进行蛋白质测量”。

有人能够通过制作一个我可以使用的可复制示例来帮助我吗？

这是我到目前为止所尝试的。

R 包fulltext似乎很有用，因为它允许检索链接到文章的 ID 列表。例如，我可以获得文章的 DOI：

library(fulltext)
res1 <- ft_search(query = "Protein measurement with the folin phenol reagent", from = "crossref")
res1 <- ft_links(res1)
res1$crossref$ids

Run Code Online (Sandbox Code Playgroud)

以同样的方式，我可以通过from = "scopus"在函数中设置fulltext::ft_search（并包含 Scopus API 密钥）来获取 scopus id。

如果使用 DOI，我可以使用 R 库获取文章的引用次数rcrossref：

rcrossref::cr_citation_count(res1$crossref$ids[1])

Run Code Online (Sandbox Code Playgroud)

rscopus同样，如果我想使用 scopus id 而不是 DOI，我可以使用 R 包。

不幸的是，这些信息对我来说还不够，因为我需要引用该论文的文章列表，而不是数量。

我在互联网上看到很多人使用该软件包scholar。但如果我理解正确的话，为了让它发挥作用，我需要文章的作者有一个谷歌学者ID，而且我必须找到一种方法来检索这个ID。所以它看起来不像是一个可行的解决方案。

有谁知道如何解决这个问题？

r citations web-scraping google-scholar scopus

sha*_*azz

lucky-day

7
推荐指数

1
解决办法

2585
查看次数

有没有办法使用PHP从Google Scholar下载bibtex

嗨,有没有办法使用PHP从Google Scholar下载BibTeX条目而无需逐个手动下载BibTeX？例如,设置搜索值,如"research",然后通过代码自动从链接下载相关的BibTeX.

任何帮助,将不胜感激.我试图获取HTML页面,但是当我尝试获取页面内容时,"导入到BibTeX"链接在检索到的页面内容上消失.

我的代码:

<?php
$url = 'http://scholar.google.com/scholar?q=honors+college&amp;hl=en&amp;btnG=Search&     amp;as_sdt=1%2C4&amp;as_sdtp=on';
$needle = 'Import into bibtex';
$contents = file_get_contents($url);
echo $contents;
if(strpos($contents, $needle)!== false) {
echo 'found';
} else {
echo 'not found';
}
?>

Run Code Online (Sandbox Code Playgroud)

php bibtex google-scholar

jar*_*rus

2011 11-22

6
推荐指数

1
解决办法

1099
查看次数

是否可以抓取特定主题的所有谷歌学术结果并且合法吗？

我有一些经验，但没有网站编码经验，并且认为我无法选择正确的 CSS 节点进行解析（我相信）。

library(rvest)
library(xml2)
library(selectr)
library(stringr)
library(jsonlite)

url <-'https://scholar.google.com/scholar?hl=en&as_sdt=0%2C38&q=apex+predator+conservation&btnG=&oq=apex+predator+c'
webpage <- read_html(url)

title_html <- html_nodes(webpage, 'a#rh06x-YUUvEJ')
title <- html_text(title_html)
head(title)

Run Code Online (Sandbox Code Playgroud)

最终，如果我可以将所有学者成果抓取并分成一个 csv 文件，其中包含“标题”、“作者”、“年份”、“期刊”等标题，那就太好了。任何帮助将非常感激！谢谢

r web-scraping google-scholar rvest

Aak*_*ity

2023 01-20

5
推荐指数

1
解决办法

2685
查看次数