相关疑难解决方法(0)

如何使用python抓取网站/将数据提取到数据库中？

我想构建一个webapp来帮助我大学的其他学生创建他们的日程安排.为此,我需要抓取主时间表(一个巨大的html页面)以及每个课程的详细描述链接到数据库中,最好是在python中.另外,我需要登录才能访问数据.

那会怎么样？
我可以/应该使用哪些工具/库？
有没有很好的教程？
我如何最好地处理二进制数据(例如漂亮的pdf)？
那已经有很好的解决方案吗？

python web-crawler

McE*_*roe

lucky-day

11
推荐指数

1
解决办法

7万
查看次数

列出网站上的所有文件

我正在开发一个程序，该程序使用来在互联网上搜索某些内容xgoogle，然后在结果网站中查找所有文件。我在查找网站中的所有文件时遇到问题。我发现了一个类似的问题，但我无法让它发挥作用。这是我一直在使用的代码。

from bs4 import BeautifulSoup
import requests
def find_files():
    url = "http://www.python.org"
    soup = BeautifulSoup(requests.get(url).text)
    for a in soup.find('div', {'class': 'catlist'}).find_all('a'):
        yield url + a['href']

Run Code Online (Sandbox Code Playgroud)

当我调用它时，代码不会运行。我已将 print 语句放入函数中，但没有任何反应。我应该做什么来修复它？这个函数如何返回网站中所有文件的列表？

python beautifulsoup python-requests

作者

2017 05-23

6
推荐指数

1
解决办法

6247
查看次数

标签统计

python ×2

beautifulsoup ×1

python-requests ×1

web-crawler ×1

如何使用python抓取网站/将数据提取到数据库中？

列出网站上的所有文件

标签 统计

标签统计