哪种Perl模块有利于数据整理?

Pab*_*cia 11 perl text-parsing html-parsing xml-parsing data-munging

九年前,当我开始使用Perl解析HTML和自由文本时,我阅读了Perl的经典Data Munging.有人知道大卫是否打算更新这本书,或者是否有类似的书籍或网页,其中解释了像XML-Twig,Regexp-Grammars等新的解析模块?

我假设在过去的九年中,一些模块仍然和它们一样好,有些模块是最新的,但有一些新的有趣方法,有些还有更好的替代方法.例如,Parse-RecDescent仍然是自由文本解析的唯一选择,还是Perl 6影响的Regexp-Grammars在许多场景中的替代?

我已经四年没有使用Perl进行有效的HTML,XML或自由文本数据挖掘了,所以我这个领域的工具包可能有点过时了.因此,对于与该领域当前CPAN模块最新的人员而言,HTML和DOM操作,链接提取/验证,Web测试(如Mechanize,XML操作和自由文本解析)的任何反馈都将受到欢迎.

我的工具包的一些新增内容:

还在我的工具箱中:

Dav*_*oss 7

它不太可能会出现第二版"带有Perl的Data Munging".我担心经济学不会叠加.

但是,你是对的,自2001年以来技术已经走了很长一段路,而且有很多新的和改进的模块覆盖了与本书中讨论的模块大致相同的区域.例如,我不记得最后一个我使用XML :: Parser或XML :: DOM.这些天我似乎使用XML :: LibXML来完成我的大部分XML工作.当然,我对数据库的讨论也不完整,因为它没有提到DBIx :: Class.

也许通过我的Perl博客上的一些帖子更新一些信息是一个有趣的想法.我会考虑一下.谢谢你的想法.