用于下载和解析网页的语言/库？

Question

什么语言和库适合脚本来解析和下载少量的Web资源？

例如,一些网站发布伪播客,但不是正确的RSS源; 他们只是定期发布包含播放列表的网页的MP3文件.我想编写一个脚本来定期运行并解析链接和播放列表信息的相关页面,下载MP3,并将播放列表放在MP3标签中,以便在我的iPod中很好地显示.我也可以编写一些类似的应用程序.

你会推荐什么语言？我希望该脚本能够在Windows和MacOS上运行.以下是一些替代方案:

你最喜欢的语言和图书馆是做什么的？为什么？是否有其他语言的jQuery类似的好库？

Answer 1

如果你想花一些时间与Clojure(一个非常好的主意IMO!),给Enlive一个机会.GitHub描述读取

Clojure的基于选择器(àlaCSS)的模板和转换系统 - 阅读更多

除了对模板有用之外,它还是一个功能强大的webscraping库; 有关一些简单的抓取示例,请参阅本教程的初始部分.(第三个是纽约时报的主页,所以实际上没有那么简单.)

如果你寻找它们,网上还有其他教程; Enlive本身带有一些文档/示例.(此外,代码总共<1000行且非常易读,但我认为对于熟悉该语言的人来说,这可能不那么简单.)

Answer 2

Clojure链接转储,覆盖enlive,基于tagSoup和代理进行并行下载(roundups /链接转储不是很好,但我确实花了一些时间在google搜索/搜索不同的libs.蜘蛛网/抓取可能非常简单或非常复杂,具体取决于已爬网站点的结构,HTML,XHTML等)

apache http客户端

Answer 3

Beautiful Soup(http://www.crummy.com/software/BeautifulSoup/)是一个很好的python库.它专门处理格式错误的标记.