相关疑难解决方法(0)

如何在Python中通过Tor制作urllib2请求?

我正在尝试使用Python编写的爬虫来抓取网站.我想将Tor与Python集成,这意味着我想使用Tor匿名抓取该站点.

我试过这样做.它似乎不起作用.我检查了我的IP,它仍然与我使用tor之前的IP相同.我通过python检查了它.

import urllib2
proxy_handler = urllib2.ProxyHandler({"tcp":"http://127.0.0.1:9050"})
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)
Run Code Online (Sandbox Code Playgroud)

python tor

49
推荐指数
3
解决办法
4万
查看次数

使用wget从谷歌学者搜索结果下载所有pdf文件

我想写一个简单的网络蜘蛛,或者只是用来wget从谷歌学者那里下载pdf结果.这对于获得研究论文来说实际上是一种非常漂亮的方式.

我已经在stackoverflow上阅读了以下页面:

使用wget抓取网站并限制已抓取链接的总数

网络蜘蛛如何与Wget的蜘蛛不同?

从网站下载所有PDF文件

如何使用wget从网站下载所有文件(但不是HTML)?

最后一页可能是最具启发性的.我确实wget按照这个建议尝试使用.

我的谷歌学者搜索结果页面因此没有下载任何内容.

鉴于我对webspiders的理解程度很低,我该怎么办呢?我确实认识到写蜘蛛可能非常复杂,这是我可能不想进行的项目.如果可以使用wget,那将是非常棒的.

unix wget web-crawler

8
推荐指数
1
解决办法
6716
查看次数

如何使用R或Python通过Google Scholar查询下载学术论文的PDF

我有一份我需要下载的学术论文标题清单.我想写一个循环来从网上下载他们的PDF文件,但找不到办法.

以下是我到目前为止所考虑的一步一步(答案是欢迎使用R或Python):

# Create list with paper titles (example with 4 papers from different journals)
titles <- c("Effect of interfacial properties on polymer–nanocrystal thermoelectric transport",
            "Reducing social and environmental impacts of urban freight transport: A review of some major cities",
            "Using Lorenz curves to assess public transport equity",
            "Green infrastructure: The effects of urban rail transit on air quality")

#Loop step1 - Query paper title in Google Scholar to get URL of journal webpage containing the paper
#Loop step2 - …
Run Code Online (Sandbox Code Playgroud)

python pdf r download google-scholar

3
推荐指数
1
解决办法
3481
查看次数

标签 统计

python ×2

download ×1

google-scholar ×1

pdf ×1

r ×1

tor ×1

unix ×1

web-crawler ×1

wget ×1