用于下载和解析网页的语言/库?

Ben*_*wee 20 ruby jquery parsing clojure web-crawler

什么语言和库适合脚本来解析和下载少量的Web资源?

例如,一些网站发布伪播客,但不是正确的RSS源; 他们只是定期发布包含播放列表的网页的MP3文件.我想编写一个脚本来定期运行并解析链接和播放列表信息的相关页面,下载MP3,并将播放列表放在MP3标签中,以便在我的iPod中很好地显示.我也可以编写一些类似的应用程序.

你会推荐什么语言?我希望该脚本能够在Windows和MacOS上运行.以下是一些替代方案:

  • JavaScript.就这样我可以使用jQuery进行解析.我不知道jQuery是否在浏览器之外工作.
  • Python.做我想做的事情可能是很好的图书馆支持.但我不喜欢Python语法.
  • Ruby.我之前在Ruby中做过简单的事情(手动解析).
  • Clojure.因为我想花一点时间.

你最喜欢的语言和图书馆是做什么的?为什么?是否有其他语言的jQuery类似的好库?

Mic*_*zyk 7

如果你想花一些时间与Clojure(一个非常好的主意IMO!),给Enlive一个机会.GitHub描述读取

Clojure的基于选择器(àlaCSS)的模板和转换系统 - 阅读更多

除了对模板有用之外,它还是一个功能强大的webscraping库; 有关一些简单的抓取示例,请参阅本教程的初始部分.(第三个是纽约时报的主页,所以实际上没有那么简单.)

如果你寻找它们,网上还有其他教程; Enlive本身带有一些文档/示例.(此外,代码总共<1000行且非常易读,但我认为对于熟悉该语言的人来说,这可能不那么简单.)


小智 5

Beautiful Soup(http://www.crummy.com/software/BeautifulSoup/)是一个很好的python库.它专门处理格式错误的标记.