接收 HTTP 错误 403：禁止 CSV 下载

Question

接收 HTTP 错误 403：禁止 CSV 下载

Sto*_*dge 3 python csv pandas python-requests

我正在尝试通过以下网址以编程方式访问 csv：http ://www.cmegroup.com/CmeWS/exp/voiProductDetailsViewExport.ctl?media=xls&tradeDate=20180627&reportType=F&productId=425

我以两种方式尝试过，一种是简单地将 URL 传递给data_sheet = pd.read_csv(sheet_url). HTTP Error 403: Forbidden尝试使用此方法时收到异常。

def get_sheet(self):
        # Accesses CME direct URL (at the moment...will add functionality for ICE later)
        # Gets sheet and puts it in dataframe
        #Returns dataframe sheet

        sheet_url = "http://www.cmegroup.com/CmeWS/exp/voiProductDetailsViewExport.ctl?media=xls&tradeDate="+str(self.date_of_report)+"&reportType="\
        + str(self.report_type)+"&productId=" + str(self.product)

        header = {
            "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36",
            "X-Requested-With": "XMLHttpRequest"
        }

        data_sheet = pd.read_csv(sheet_url)

        return data_sheet

Run Code Online (Sandbox Code Playgroud)

我还尝试假装是浏览器，认为该站点可能不允许直接调用 csv，但随后我收到了Invalid file path or buffer object type: <class 'requests.models.Response'>异常

def get_sheet(self):
        # Accesses CME direct URL (at the moment...will add functionality for ICE later)
        # Gets sheet and puts it in dataframe
        #Returns dataframe sheet

        sheet_url = "http://www.cmegroup.com/CmeWS/exp/voiProductDetailsViewExport.ctl?media=xls&tradeDate="+str(self.date_of_report)+"&reportType="\
        + str(self.report_type)+"&productId=" + str(self.product)

        header = {
            "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36",
            "X-Requested-With": "XMLHttpRequest"
        }

        req = requests.get(url = sheet_url, headers = header)

        data_sheet = pd.read_csv(req)

        return data_sheet

Run Code Online (Sandbox Code Playgroud)

我的最终目标是简单地检索该 URL 处的 CSV 并返回一个数据框。我错过了什么？

更新：我已经做了一些更多的摆弄，只是打印出来req，我得到了一个输出Response [200]，从我在 HTTP 文档中看到的意味着服务器正在接收我的信息。有谁知道问题是否是我直接访问通常存储 csv 的 URL，如果您单击该 url 关联的按钮，它会自动下载文件。在检查我的下载文件夹时，我没有看到该文件的任何下载。因此，虽然服务器可能正在接收有效请求，但我可能无法正确处理 url 行为。有任何想法吗？

Answer 1

Sim*_*nas 5

您的代码有两处错误：

您正在将响应对象传递给熊猫，

data_sheet = pd.read_csv(sheet_url) 当您的实际 csv 数据在 sheet_url.content
大熊猫无法读取csv距离string，pd.read_csv只能用文件对象的作品。因此，要读取下载的内容，您需要使用字符串编写器创建一个文件来创建物理文件或使用io.StringIO(response.content.decode('utf-8'))

使用 io 模块的一个例子是：

import requests
import io
import pandas as pd

response = requests.get('http://samplecsvs.s3.amazonaws.com/SalesJan2009.csv')

file_object = io.StringIO(response.content.decode('utf-8'))
pd.read_csv(file_object)

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，6 月前
查看次数：	4275 次
最近记录：	4 年，4 月前