我正在尝试使用python从网络获取数据。我为此导入了urllib.request包,但是在执行时出现错误:
certificate verify failed: unable to get local issuer certificate (_ssl.c:1045)
Run Code Online (Sandbox Code Playgroud)
当我将网址更改为“ http”时-我可以获取数据。但是,我相信,这避免了检查SSL证书。
所以我检查了互联网,找到了一个解决方案:运行 /Applications/Python\ 3.7/Install\ Certificates.command
这解决了我的问题。但是我对SSL之类的东西一无所知。您能否帮助我了解它实际上解决了我的问题。
如果可能,请向我推荐任何有用的资源,以了解有关安全性和证书的信息。我是新来的。
谢谢!
注意:我确实通过链接-openssl,python请求错误:“证书验证失败”
我的问题与链接中的问题不同,因为我想知道在安装certifi软件包或运行Install\ Certificates.command该错误时实际发生了什么。我对证券知之甚少。
使用请求我正在创建一个.csv格式的对象.然后我怎么能用pandas将该对象写入DataFrame?
以文本格式获取请求对象:
import requests
import pandas as pd
url = r'http://test.url'
r = requests.get(url)
r.text #this will return the data as text in csv format
Run Code Online (Sandbox Code Playgroud)
我试过(不起作用):
pd.read_csv(r.text)
pd.DataFrame.from_csv(r.text)
Run Code Online (Sandbox Code Playgroud) 我搜索了有关从 URL 读取 csv 的类似问题,但找不到从 google drive csv 文件读取 csv 文件的方法。
我的尝试:
import pandas as pd
url = 'https://drive.google.com/file/d/0B6GhBwm5vaB2ekdlZW5WZnppb28/view?usp=sharing'
dfs = pd.read_html(url)
Run Code Online (Sandbox Code Playgroud)
我们如何在 Pandas 中读取这个文件?
相关链接:
Pandas具有非常方便的能力,可以从URL中读取csv和其他格式.但是,当数据受到简单的http身份验证保护时,Pandas无法提示用户输入身份验证详细信息(userid,password).解决此限制的最佳方法是什么?
我目前正在做的是:
response = requests.get('http://my.data.url/metrics/crawler/counts', auth=HTTPBasicAuth('userid', 'password'), stream=True)
pd.read_csv(response.raw)
Run Code Online (Sandbox Code Playgroud)
有没有更好的办法?
我有一个 python 脚本,它通过 https 从服务器加载一个 csv 文件。我支持公司代理,因此我需要向脚本提供该信息。
让
proxy_dict = {"https://user:password@10.10.1.1:8080"}
Run Code Online (Sandbox Code Playgroud)
所有值都更改为正确的地方。
使用
print(requests.get(my_url, proxies=proxy_dict).text[:1000]
Run Code Online (Sandbox Code Playgroud)
按预期工作。
我想使用没有代理参数的pandas.read_csv。
如何为熊猫设置代理?无论是作为变量,还是作为内核,或系统范围内,只要仅影响 Python 即可。
在 Windows 7 x64 上运行 Anaconda 3.6.3 x64。
谢谢!
我一直在尝试不同的方法将Kaggle上的SpaceX 任务csv 文件直接导入 pandas DataFrame,但没有成功。
我需要发送登录请求。这是我到目前为止所拥有的:
import requests
import pandas as pd
from io import StringIO
# Link to the Kaggle data set & name of zip file
login_url = 'http://www.kaggle.com/account/login?ReturnUrl=/spacex/spacex-missions/downloads/database.csv'
# Kaggle Username and Password
kaggle_info = {'UserName': "user", 'Password': "pwd"}
# Login to Kaggle and retrieve the data.
r = requests.post(login_url, data=kaggle_info, stream=True)
df = pd.read_csv(StringIO(r.text))
Run Code Online (Sandbox Code Playgroud)
r 正在返回页面的 html 内容。
df = pd.read_csv(url)给出 CParser 错误:
CParserError: Error tokenizing data. C error: Expected 1 …
我试图使用pandas在Python上使用Python读取github上的CSV文件,>我在网上浏览了所有内容,并且尝试了一些在此网站上找到的解决方案,但它们不起作用。我究竟做错了什么?
我已经试过了:
import pandas as pd
url = 'https://github.com/lukes/ISO-3166-Countries-with-Regional-Codes/blob/master/all/all.csv'
df = pd.read_csv(url,index_col=0)
#df = pd.read_csv(url)
print(df.head(5))
Run Code Online (Sandbox Code Playgroud) 假设我想在这里下载数据:http://www.dce.com.cn/publicweb/quotesdata/memberDealPosiQuotes.html
我想使用python自动执行此操作,我可以在其中指定日期等.
我在这里发现可以使用pandas pd.read_csv从网页上读取数据,但首先需要获得正确的网址.但在我的情况下,我不知道网址是什么.
此外,我还想自己指定日期和合同等.
在询问之前,我实际上尝试了开发工具,我仍然看不到网址,而且我不知道如何使其编程.
As of Pandas 0.19.2, the function read_csv() can be passed a URL. See, for example, from this answer:
import pandas as pd
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
c=pd.read_csv(url)
Run Code Online (Sandbox Code Playgroud)
The URL I'd like to use is: https://moz.com/top500/domains/csv
With the above code, this URL returns an error:
urllib2.HTTPError: HTTP Error 403: Forbidden
Run Code Online (Sandbox Code Playgroud)
based on this post, I can get a valid response by passing a request header:
import urllib2,cookielib
site= "https://moz.com/top500/domains/csv"
hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', …Run Code Online (Sandbox Code Playgroud) pandas ×8
python ×8
csv ×4
dataframe ×1
html ×1
http-headers ×1
javascript ×1
kaggle ×1
openssl ×1
proxy ×1
python-3.x ×1
ssl ×1