Pab*_*cia 11 perl text-parsing html-parsing xml-parsing data-munging
九年前,当我开始使用Perl解析HTML和自由文本时,我阅读了Perl的经典Data Munging.有人知道大卫是否打算更新这本书,或者是否有类似的书籍或网页,其中解释了像XML-Twig,Regexp-Grammars等新的解析模块?
我假设在过去的九年中,一些模块仍然和它们一样好,有些模块是最新的,但有一些新的有趣方法,有些还有更好的替代方法.例如,Parse-RecDescent仍然是自由文本解析的唯一选择,还是Perl 6影响的Regexp-Grammars在许多场景中的替代?
我已经四年没有使用Perl进行有效的HTML,XML或自由文本数据挖掘了,所以我这个领域的工具包可能有点过时了.因此,对于与该领域当前CPAN模块最新的人员而言,HTML和DOM操作,链接提取/验证,Web测试(如Mechanize,XML操作和自由文本解析)的任何反馈都将受到欢迎.
我的工具包的一些新增内容:
还在我的工具箱中: