有没有人知道是否以及如何以编程方式搜索Google - 特别是如果有Java API?
我有一段使用pygoogle python模块的代码,它允许我以编程方式在google中搜索某些术语:
g = pygoogle(search_term)
g.pages = 1
results = g.get_urls()[0:10]
Run Code Online (Sandbox Code Playgroud)
我发现不幸的是,这已经停止了,取而代之的是谷歌自定义搜索.我查看了SO上的其他相关问题,但没有发现任何我可以使用的问题.我有两个问题:
1)谷歌自定义搜索是否允许我完成我在上面三行中所做的事情?
2)如果是 - 我在哪里可以找到示例代码来完成我上面所做的事情?如果没有,那么使用pygoogle做什么是替代方案?
我使用下面的谷歌API ajax来获取特定搜索词的图像.这是在WinForms应用程序中完成的.
以下链接似乎有效,但它只返回4个结果(通过JSON)
有谁知道如何更多地哄骗它?
http://ajax.googleapis.com/ajax/services/search/images?v=1.0&q=Apple+Cake
显然必须有另一个参数来请求更多或分页结果,但我似乎无法弄明白?谁知道?
我使用了以下代码:
library(XML)
library(RCurl)
getGoogleURL <- function(search.term, domain = '.co.uk', quotes=TRUE)
{
search.term <- gsub(' ', '%20', search.term)
if(quotes) search.term <- paste('%22', search.term, '%22', sep='')
getGoogleURL <- paste('http://www.google', domain, '/search?q=',
search.term, sep='')
}
getGoogleLinks <- function(google.url)
{
doc <- getURL(google.url, httpheader = c("User-Agent" = "R(2.10.0)"))
html <- htmlTreeParse(doc, useInternalNodes = TRUE, error=function(...){})
nodes <- getNodeSet(html, "//a[@href][@class='l']")
return(sapply(nodes, function(x) x <- xmlAttrs(x)[[1]]))
}
search.term <- "cran"
quotes <- "FALSE"
search.url <- getGoogleURL(search.term=search.term, quotes=quotes)
links <- getGoogleLinks(search.url)
Run Code Online (Sandbox Code Playgroud)
我想找到我的搜索产生的所有链接,我得到以下结果:
> links
list()
Run Code Online (Sandbox Code Playgroud)
我怎样才能获得链接?另外我想获得谷歌搜索结果的头条新闻和总结如何才能获得它?最后是否有办法获取ChillingEffects.org结果中的链接?
对不起这个问题,我是新来的.
我有一个项目,我需要抓取谷歌地图找到一个地区的所有公司,我刚刚听说我们决定项目的时候,我做了一些研究,并发现大多数刮刮服务需要某个公司现场开始搜索,但我需要该领域的所有公司,有人可以解释我应该如何开始?
我在这个帖子中看到了:从Google搜索结果中抓取数据是否可以?
他们谈论IP我知道ISP会为某些地区分配公共IP地址,但我该如何使用它来刮掉?
另外我发现一篇文章说我必须在他们的网站上使用Google API:https: //developers.google.com/maps/web-services/ 我应该使用哪种API?
我正在使用Ubuntu系统,如果我需要安装任何东西,我应该使用Windows操作系统吗?
谢谢和亲切的问候
更新:
我从http://py-googlemaps.sourceforge.net/发现我可以使用这个python代码:
local = gmaps.local_search('cafe near'+ destination)print local ['responseData'] ['results'] [0] ['titleNoFormatting'] Vie De France Bakery&Cafe
如果我用"公司"或任何名称取代咖啡馆,我相信我会得到我正在寻找的信息吗?另外我想知道是否有人可以告诉我如何进入配置界面?
我正在尝试使用Google的搜索结果获取HTML.以发送GET请求为例:
https://www.google.ru/?q=1111
Run Code Online (Sandbox Code Playgroud)
但是如果在浏览器中一切正常,当我尝试使用curl或者在Google中使用"查看源代码"获取源代码时,只有一些Javascript代码,没有搜索结果.这是某种保护吗?我能做什么?
我Google API用来获取地点信息并将其存储到数据库中.使用Google API我能够获得地址,开放时间,评级和评论,如下图所示.
但是,我无法获得在下面的图像中以红色圆圈突出显示的地方描述.("Quaint Italian mainstay for deep-dish, Chicago-style pizza, calzones, pastas & hot dogs.")

我希望在我的申请中提供这些信息.我认为谷歌正在从中获取这些信息
但我不确定.任何人都可以帮我建议我如何获取该信息或我可以用来获取该信息的任何其他API google place_id.
任何帮助将受到高度赞赏.
谢谢
freebase wikipedia-api google-places-api google-places wikidata-api
使用google-scholar和R,我想知道谁在引用某篇论文.
现有的包(如学者)面向H指数分析:研究人员的统计数据.
我想给目标纸作为输入.一个示例网址是:
https://scholar.google.co.uk/scholar?oi=bibs&hl=en&cites=12939847369066114508
然后R应该抓住这些引文页面(谷歌学者分页这些),然后返回一系列引用目标的论文(最多500个或更多引用).然后我们在标题中搜索关键词,列出期刊和引用作者等.
关于如何做到这一点的任何线索?或者是从字面上刮下每一页?(我可以使用复制和粘贴进行一次性操作).
看起来这应该是一个普遍有用的功能,如播种系统评论,所以有人添加到一个包可能会增加他们的H :-)
我想直接链接到第一个谷歌搜索结果,这可能吗?我将使用一个非常具体的搜索查询,包括site:specificsite.com. 就像“我感觉很幸运”按钮的直接链接。
例子: https://www.google.no/search?q=how+do+i+get+a+facebook+pixel+site%3Afacebook.com
在我的脑海中,我认为向 Google API 或普通 Google 搜索站点发出 PHP curl 请求,然后将第一个结果作为链接回显。或者做同样的事情,但使用 AJAX。
但我猜一定有更直接的方法吗?
PS:我不想讨论它是否是一个好主意,只是它是否可能,也许是关于如何最简单地做到这一点的提示。
我已经安装Tor + Privoxy在我的服务器上并且工作正常!(已测试)。但现在,当我尝试使用urllib2 (python)代理来抓取谷歌购物结果时,当然,我总是被谷歌阻止(有时是 503 错误,有时是 403 错误)。那么任何人有任何解决方案可以帮助我避免这个问题吗?我们将非常感激!
我正在使用的源代码:
_HEADERS = {
'User-Agent': 'Mozilla/5.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'deflate',
'Connection': 'close',
'DNT': '1'
}
request = urllib2.Request("https://www.google.com/#q=iphone+5&tbm=shop", headers=self._HEADERS)
proxy_support = urllib2.ProxyHandler({"http" : "127.0.0.1:8118"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
try:
response = urllib2.urlopen(request)
html = response.read()
print html
except urllib2.HTTPError as e:
print e.code
print e.reason
Run Code Online (Sandbox Code Playgroud)
请注意:当我不使用代理时,它可以正常工作!
检查Google 关键字排名的最佳方法是什么。
我尝试使用自己的PHP脚本,但经过一些查询后,我得到了Captcha页面。):
有什么办法可以让一个履带不会使谷歌愤怒,并且可以运行大约1000个查询,每天?
我可以改用Google Api吗?
希望有人可以帮助我指出正确的方向
我认为这会相当简单,但事实证明这很有挑战性.谷歌使用https://现在和bing重定向删除HTTP://.
如何获取给定搜索字词的前5个网址?
我已经尝试了几种方法(包括将结果加载到iframe中),但是继续用我尝试的所有方法打砖墙.
我甚至不需要代理,因为我说的是收获的结果非常少,并且只会在几个月内使用20-30个字.几乎不足以触发搜索巨头的鞭打.
任何帮助将非常感激!
这是我尝试过的一个例子:
$query = urlencode("test");
preg_match_all('/<a title=".*?" href=(.*?)>/', file_get_contents("http://www.bing.com/search?q=" . urlencode($query) ), $matches);
echo implode("<br>", $matches[1]);
Run Code Online (Sandbox Code Playgroud)