我正在开展一个研究出版物和合作项目,其中有文献检索功能。Google Scholar 似乎可以工作,因为它是一个开源工具,但是当我研究 Google Scholar 时,我找不到任何有关它具有 API 的信息。
有谷歌学术的API吗?
我想用R提取Google Scholar搜索的前100个结果(比如说).有谁知道怎么做?
确切地说,我只需要论文的名称,作者和引文数.
这是合法的吗?
I'd like to use python to scrape google scholar search results. I found two different script to do that, one is gscholar.py and the other is scholar.py (can that one be used as a python library?).
Now, I should maybe say that I'm totally new to python, so sorry if I miss the obvious!
The problem is when I use gscholar.py as explained in the README file, I get as a result
query() takes at least 2 arguments (1 given) …
我正在开展一个项目来分析如何引用期刊文章.我有一个大型的期刊文章名称文件.我打算将它们传递给Google学术搜索,并查看每个引用的引用次数.
这是我遵循的策略:
使用http://www.icir.org/christian/scholar.html上的 "scholar.py" .这是一个预先编写的python脚本,可以搜索谷歌学者并以CSV格式返回首次点击的信息(包括引用次数)
谷歌学者在一定数量的搜索后阻止你(我有大约3000个文章标题要查询).我发现,大多数人使用Tor(如何通过Tor的在Python?让urllib2的请求,并防止自定义Web爬虫被封锁)来解决这个问题.Tor是一种服务,每隔几分钟就会为您提供一个随机IP地址.
我有scholar.py和tor成功设置和工作.我不熟悉python或库urllib2,并想知道scholar.py需要进行哪些修改,以便查询通过Tor进行路由.
我也很乐意为大众谷歌学者查询提供一种更容易(并且可能有很大差异)的方法,如果存在的话.
提前致谢
我想通过matlab脚本自动从Google Scholar获取一些数据.我最感兴趣的是Google Scholar的Bibtex条目和正向引用功能等数据.但是,似乎Google学术搜索没有API,有没有办法使用Matlab从Google学术搜索中自动获取书目数据?是否有一些工具或代码可用于此?
使用google-scholar和R,我想知道谁在引用某篇论文.
现有的包(如学者)面向H指数分析:研究人员的统计数据.
我想给目标纸作为输入.一个示例网址是:
https://scholar.google.co.uk/scholar?oi=bibs&hl=en&cites=12939847369066114508
然后R应该抓住这些引文页面(谷歌学者分页这些),然后返回一系列引用目标的论文(最多500个或更多引用).然后我们在标题中搜索关键词,列出期刊和引用作者等.
关于如何做到这一点的任何线索?或者是从字面上刮下每一页?(我可以使用复制和粘贴进行一次性操作).
看起来这应该是一个普遍有用的功能,如播种系统评论,所以有人添加到一个包可能会增加他们的H :-)
作为我研究的一部分,我试图获取大量学术文章的信息.文章数量大约为数千.由于谷歌学术搜索没有API,我试图抓住/爬行学者.现在我现在,这在技术上是针对EULA的,但我试图对此非常礼貌和合理.我了解Google不允许机器人将流量控制在合理范围内.我开始测试一批约500个请求,每个请求之间有1个.关于前100个请求后我被阻止了.我尝试了多种其他策略,包括:
我怀疑,在这一点上,我的剧本正在增加任何人类所需的大量流量.但是,在约100-200个请求之后,我总是被阻止.有没有人知道一个很好的策略来克服这个问题(我不关心它是否需要数周,只要它是自动化的).此外,是否有人直接与谷歌签约并要求获得类似的事情(研究等)?是否值得尝试编写它们并解释我正在尝试做什么以及如何做,并看看我是否可以获得我的项目的许可?我将如何与他们联系?谢谢!
我想使用 R 获取引用科学期刊论文的文章列表。
我所掌握的唯一信息是文章的标题,例如“使用福林酚试剂进行蛋白质测量”。
有人能够通过制作一个我可以使用的可复制示例来帮助我吗?
这是我到目前为止所尝试的。
R 包fulltext似乎很有用,因为它允许检索链接到文章的 ID 列表。例如,我可以获得文章的 DOI:
library(fulltext)
res1 <- ft_search(query = "Protein measurement with the folin phenol reagent", from = "crossref")
res1 <- ft_links(res1)
res1$crossref$ids
Run Code Online (Sandbox Code Playgroud)
以同样的方式,我可以通过from = "scopus"在函数中设置fulltext::ft_search(并包含 Scopus API 密钥)来获取 scopus id。
如果使用 DOI,我可以使用 R 库获取文章的引用次数rcrossref:
rcrossref::cr_citation_count(res1$crossref$ids[1])
Run Code Online (Sandbox Code Playgroud)
rscopus同样,如果我想使用 scopus id 而不是 DOI,我可以使用 R 包。
不幸的是,这些信息对我来说还不够,因为我需要引用该论文的文章列表,而不是数量。
我在互联网上看到很多人使用该软件包scholar。但如果我理解正确的话,为了让它发挥作用,我需要文章的作者有一个谷歌学者ID,而且我必须找到一种方法来检索这个ID。所以它看起来不像是一个可行的解决方案。
有谁知道如何解决这个问题?
嗨,有没有办法使用PHP从Google Scholar下载BibTeX条目而无需逐个手动下载BibTeX?例如,设置搜索值,如"research",然后通过代码自动从链接下载相关的BibTeX.
任何帮助,将不胜感激.我试图获取HTML页面,但是当我尝试获取页面内容时,"导入到BibTeX"链接在检索到的页面内容上消失.
我的代码:
<?php
$url = 'http://scholar.google.com/scholar?q=honors+college&hl=en&btnG=Search& amp;as_sdt=1%2C4&as_sdtp=on';
$needle = 'Import into bibtex';
$contents = file_get_contents($url);
echo $contents;
if(strpos($contents, $needle)!== false) {
echo 'found';
} else {
echo 'not found';
}
?>
Run Code Online (Sandbox Code Playgroud) 我有一些经验,但没有网站编码经验,并且认为我无法选择正确的 CSS 节点进行解析(我相信)。
library(rvest)
library(xml2)
library(selectr)
library(stringr)
library(jsonlite)
url <-'https://scholar.google.com/scholar?hl=en&as_sdt=0%2C38&q=apex+predator+conservation&btnG=&oq=apex+predator+c'
webpage <- read_html(url)
title_html <- html_nodes(webpage, 'a#rh06x-YUUvEJ')
title <- html_text(title_html)
head(title)
Run Code Online (Sandbox Code Playgroud)
最终,如果我可以将所有学者成果抓取并分成一个 csv 文件,其中包含“标题”、“作者”、“年份”、“期刊”等标题,那就太好了。任何帮助将非常感激!谢谢
google-scholar ×10
r ×5
web-scraping ×4
python ×3
bibtex ×1
citations ×1
journal ×1
matlab ×1
php ×1
researchkit ×1
rvest ×1
scopus ×1
tor ×1
web-crawler ×1