我正在尝试使用python自动下载历史股票数据.我尝试打开的URL以CSV文件响应,但我无法使用urllib2打开.我之前在几个问题中已经尝试更改用户代理,我甚至尝试接受响应cookie,没有运气.你能帮忙吗?
注意:同样的方法适用于雅虎财经.
码:
import urllib2,cookielib
site= "http://www.nseindia.com/live_market/dynaContent/live_watch/get_quote/getHistoricalData.jsp?symbol=JPASSOCIAT&fromDate=1-JAN-2012&toDate=1-AUG-2012&datePeriod=unselected&hiddDwnld=true"
hdr = {'User-Agent':'Mozilla/5.0'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
Run Code Online (Sandbox Code Playgroud)
错误
文件"C:\ Python27\lib\urllib2.py",第527行,在http_error_default中引发HTTPError(req.get_full_url(),代码,msg,hdrs,fp)urllib2.HTTPError:HTTP错误403:禁止
谢谢你的协助
我试图从下面的URL中抓取数据.但是,有时候有时会driver.get(url)出现错误.在极少数情况下,它工作正常,在我的Mac上使用真正的浏览器,同一个蜘蛛每次都可以正常工作.所以这与我无关.[Errno 104] Connection reset by peer[Errno 111] Connection refusedspider
尝试了很多解决方案,比如在页面上等待选择器,隐式等待,使用selenium-requests和传递正确的请求标头等等.但似乎没有任何工作.
http://www.snapdeal.com/offers/deal-of-the-day
https://paytm.com/shop/g/paytm-home/exclusive-discount-deals
Run Code Online (Sandbox Code Playgroud)
我正在使用python,selenium并headless Firefox webdriver实现这一目标.操作系统是centos 6.5.
注意:我有很多AJAX重页被成功抓取,有些是在下面.
http://www.infibeam.com/deal-of-the-day.html, http://www.amazon.in/gp/goldbox/ref=nav_topnav_deals
Run Code Online (Sandbox Code Playgroud)
已经花了很多天试图调试问题没有运气.任何帮助,将不胜感激.