使用Python刮刮Yahoo Finance的历史数据

Question

使用Python刮刮Yahoo Finance的历史数据

你们中的一些人现在可能已经知道，似乎Yahoo! 财经已停止使用其API的股票市场数据。当我知道该fix-yahoo-finance解决方案的存在时，我正在尝试通过直接从Yahoo抓取历史数据来为我的代码实现更稳定的解决方案。

所以这是我目前所拥有的：

import requests
from bs4 import BeautifulSoup

page = requests.get("https://finance.yahoo.com/quote/AAPL/history?period1=345423600&period2=1495922400&interval=1d&filter=history&frequency=1d")
soup = BeautifulSoup(page.content, 'html.parser')
soup
print(soup.prettify())

Run Code Online (Sandbox Code Playgroud)

要从Yahoo表获取数据，我可以这样做：

c=soup.find_all('tbody')
print(c)

Run Code Online (Sandbox Code Playgroud)

我的问题是，如何将“ c”转换为更好的数据框？谢谢！

Answer 1

小智 9

我编写此文件是为了直接从下载csv链接从YF获取历史数据。它需要发出两个请求，一个请求获取cookie和面包屑，另一个请求获取数据。它返回一个熊猫数据框

import re
from io import StringIO
from datetime import datetime, timedelta

import requests
import pandas as pd


class YahooFinanceHistory:
    timeout = 2
    crumb_link = 'https://finance.yahoo.com/quote/{0}/history?p={0}'
    crumble_regex = r'CrumbStore":{"crumb":"(.*?)"}'
    quote_link = 'https://query1.finance.yahoo.com/v7/finance/download/{quote}?period1={dfrom}&period2={dto}&interval=1d&events=history&crumb={crumb}'

    def __init__(self, symbol, days_back=7):
        self.symbol = symbol
        self.session = requests.Session()
        self.dt = timedelta(days=days_back)

    def get_crumb(self):
        response = self.session.get(self.crumb_link.format(self.symbol), timeout=self.timeout)
        response.raise_for_status()
        match = re.search(self.crumble_regex, response.text)
        if not match:
            raise ValueError('Could not get crumb from Yahoo Finance')
        else:
            self.crumb = match.group(1)

    def get_quote(self):
        if not hasattr(self, 'crumb') or len(self.session.cookies) == 0:
            self.get_crumb()
        now = datetime.utcnow()
        dateto = int(now.timestamp())
        datefrom = int((now - self.dt).timestamp())
        url = self.quote_link.format(quote=self.symbol, dfrom=datefrom, dto=dateto, crumb=self.crumb)
        response = self.session.get(url)
        response.raise_for_status()
        return pd.read_csv(StringIO(response.text), parse_dates=['Date'])

Run Code Online (Sandbox Code Playgroud)

您可以像这样使用它：

df = YahooFinanceHistory('AAPL', days_back=30).get_quote()

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，8 月前
查看次数：	3915 次
最近记录：	6 年，9 月前