ric*_*ick 5 ruby regex search pattern-matching html-parsing
我试图找到一种在网页中查找重复模式的方法,以便我可以将内容提取到我的数据库中.
编辑:我不知道重复模式是什么,所以我不能只通过正则表达式或其他东西搜索给定的模式.
例如,如果你有10个网站销售汽车,但网站都是不同的,在每个网站上查看汽车以重复的方式在该网站的页面上以html列出.
其他网站将以不同的方式列出,但每个网站都有重复的模式.
有谁知道这种事情是怎么样的,或有任何经验?
我喜欢红宝石所以如果有人知道或者知道任何可能帮助我的宝石/宝石,我希望能用红宝石吗?
Kyl*_*ten -1
在 Ruby 中,如果你想获取网页的文本,你所要做的就是使用Net::HTTP命名空间。该get方法返回网页的字符串表示形式。
Net::HTTP.get 'http://www.target-site.com', '/target-page.html'
Run Code Online (Sandbox Code Playgroud)
之后您可能想要使用某种 XML 解析器来创建页面模型并在其上导航。我听说过一些关于 的好消息Hpricot。
|   归档时间:  |  
           
  |  
        
|   查看次数:  |  
           722 次  |  
        
|   最近记录:  |