带有MySQL数据库的Python Web爬虫

Cos*_*smo 6 python mysql sql web-crawler web-scraping

我想创建或找到一个用Python编写的开源Web爬虫(spider/bot).它必须找到并跟踪链接,收集元标记和元描述,网页标题和网页的网址,并将所有数据放入MySQL数据库.

有谁知道任何可以帮助我的开源脚本?此外,如果有人能给我一些关于我应该做什么的指示,那么他们非常欢迎.

Lyn*_*nob 4

是的,我知道,

图书馆

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

开源网络爬虫

http://scrapy.org/

教程

http://www.example-code.com/python/pythonspider.asp

PS 我不知道他们是否使用 mysql,因为通常 python 使用 sqlit 或 postgre sql,所以如果你愿意,你可以使用我给你的库并导入 python-mysql 模块并执行它:D

http://sourceforge.net/projects/mysql-python/