Ben*_*wee 20 ruby jquery parsing clojure web-crawler
什么语言和库适合脚本来解析和下载少量的Web资源?
例如,一些网站发布伪播客,但不是正确的RSS源; 他们只是定期发布包含播放列表的网页的MP3文件.我想编写一个脚本来定期运行并解析链接和播放列表信息的相关页面,下载MP3,并将播放列表放在MP3标签中,以便在我的iPod中很好地显示.我也可以编写一些类似的应用程序.
你会推荐什么语言?我希望该脚本能够在Windows和MacOS上运行.以下是一些替代方案:
你最喜欢的语言和图书馆是做什么的?为什么?是否有其他语言的jQuery类似的好库?
Clojure链接转储,覆盖enlive,基于tagSoup和代理进行并行下载(roundups /链接转储不是很好,但我确实花了一些时间在google搜索/搜索不同的libs.蜘蛛网/抓取可能非常简单或非常复杂,具体取决于已爬网站点的结构,HTML,XHTML等)
http://blog.bestinclass.dk/index.php/2009/10/functional-social-webscraping/
http://nakkaya.com/2009/12/17/mashups-using-clojure/
http://freegeek.in/blog/2009/10/downloading-a-bunch-of-files-in-parallel-using-clojure-agents/
http://blog.maryrosecook.com/post/46601664/Writing-an-mp3-crawler-in-Clojure
http://gnuvince.wordpress.com/2008/11/18/fetching-web-comics-with-clojure-part-2/
http://htmlparser.sourceforge.net/
http://nakkaya.com/2009/11/23/converting-html-to-compojure-dsl/
http://www.bestinclass.dk/index.php/2009/10/functional-social-webscraping/
apache http客户端
http://github.com/rnewman/clj-apache-http
http://github.com/heyZeus/clj-web-crawler
http://japhr.blogspot.com/2009/01/clojure-http-clientclj.html
| 归档时间: |
|
| 查看次数: |
1436 次 |
| 最近记录: |