eri*_*kcw 11 python java lxml clojure
我正在寻找与Python的lxml库等效的Clojure/Java.
我过去用它来解析各种各样的html(作为BeautifulSoup的替代品),能够为xml使用相同的elementtree api非常棒 - 真的是值得信赖的朋友!任何人都可以推荐类似的Java/Clojure库吗?
关于lxml
lxml是一个基于libxml2的xml和html处理库.它可以很好地处理损坏的html页面,因此非常适合屏幕抓取任务.它还实现了ElementTree api,因此xml/html结构表示为一个树对象,完全支持xpath和css选择器等.
它还有一些非常方便的实用功能,例如"清洁"模块,它将从"汤"(即脚本标签,样式标签等)中去除不需要的标签.
所以它使用简单,功能强大,速度非常快......!