小编Kei*_*son的帖子

如何从网站上刮取徽标?

首先,这不是关于如何刮网站的问题.我完全清楚可以使用的工具(css_parser,nokogiri等等.我正在使用Ruby进行抓取).

这是一个关于最好的解决方案的首要问题,这个解决方案只能从网站地址开始抓取网站的徽标.

我开始创建的两个解决方案是:

  1. 使用Google AJAX API通过查询"logo"进行范围限定为相关网站的图片搜索,并获取第一个结果.据我所知,大约30%的时间都有这个标识.
  2. 上面的问题是谷歌似乎并不真正关心CSS图像被替换的徽标(即用徽标替换图像的H1文本).我暂时想出的解决方案是下拉所有CSS文件,扫描url()声明,然后在文件名中查找单词标题或徽标.

解决方案二是有问题的,因为所有为网站编写CSS的人都有很多特质.他们在文件名中使用Header而不是徽标.有时文件名是随机的,对徽标一无所知.其他时候,这只是错误的形象.

我意识到我可以通过某种机器学习做一些事情,但我对客户来说有点期限,并且很快就需要一些相当能力的东西.

所有这一切,如果有人有任何"开箱即用"思考这个,我很乐意听到它.如果我可以创建一个运行良好的解决方案,我计划为任何其他感兴趣的人开放源库:)

谢谢!

screen-scraping html-parsing

5
推荐指数
3
解决办法
4080
查看次数

标签 统计

html-parsing ×1

screen-scraping ×1