blu*_*bit 31 html parsing webpage web-services html-content-extraction
如何智能地解析搜索结果在页面上返回的数据?
例如,假设我想通过解析许多图书提供商网站的搜索结果来创建一个搜索在线图书的网络服务.我可以获取页面的原始HTML数据,并做一些正则表达式使数据适用于我的Web服务,但如果任何网站更改了页面的格式,我的代码就会中断!
RSS确实是一个了不起的选择,但许多站点没有基于XML/JSON的搜索.
是否有任何工具包可以帮助自动在页面上传播信息?一个疯狂的想法是让模糊的AI模块识别搜索结果页面上的模式,并相应地解析结果......
Bob*_*Gee 24
我最近做了一些,这是我的经历.
有三种基本方法:
我已经对选项2的web收获进行了修改,但我发现它们的语法有点奇怪.混合使用XML和一些伪Java脚本语言.如果您喜欢Java,并且喜欢XML风格的数据提取(XPath,XQuery),它可能是您的门票.
编辑:如果您使用正则表达式,请确保使用具有延迟量词和捕获组的库!PHP的较旧的正则表达式库缺少这些,它们对于在HTML中打开/关闭标记之间匹配数据是必不可少的.
| 归档时间: |
|
| 查看次数: |
28305 次 |
| 最近记录: |