Cos*_*smo 6 python mysql sql web-crawler web-scraping
我想创建或找到一个用Python编写的开源Web爬虫(spider/bot).它必须找到并跟踪链接,收集元标记和元描述,网页标题和网页的网址,并将所有数据放入MySQL数据库.
有谁知道任何可以帮助我的开源脚本?此外,如果有人能给我一些关于我应该做什么的指示,那么他们非常欢迎.
是的,我知道,
图书馆
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
开源网络爬虫
教程
http://www.example-code.com/python/pythonspider.asp
PS 我不知道他们是否使用 mysql,因为通常 python 使用 sqlit 或 postgre sql,所以如果你愿意,你可以使用我给你的库并导入 python-mysql 模块并执行它:D
http://sourceforge.net/projects/mysql-python/
| 归档时间: |
|
| 查看次数: |
11930 次 |
| 最近记录: |