如何使用python抓取网站/将数据提取到数据库中?

McE*_*roe 11 python web-crawler

我想构建一个webapp来帮助我大学的其他学生创建他们的日程安排.为此,我需要抓取主时间表(一个巨大的html页面)以及每个课程的详细描述链接到数据库中,最好是在python中.另外,我需要登录才能访问数据.

  • 那会怎么样?
  • 我可以/应该使用哪些工具/库?
  • 有没有很好的教程?
  • 我如何最好地处理二进制数据(例如漂亮的pdf)?
  • 那已经有很好的解决方案吗?

Aco*_*orn 11

如果你想使用强大的抓取框架Scrapy.它也有一些很好的文档.根据你的任务,这可能有点矫枉过正.