首先,这不是关于如何刮网站的问题.我完全清楚可以使用的工具(css_parser,nokogiri等等.我正在使用Ruby进行抓取).
这是一个关于最好的解决方案的首要问题,这个解决方案只能从网站地址开始抓取网站的徽标.
我开始创建的两个解决方案是:
解决方案二是有问题的,因为所有为网站编写CSS的人都有很多特质.他们在文件名中使用Header而不是徽标.有时文件名是随机的,对徽标一无所知.其他时候,这只是错误的形象.
我意识到我可以通过某种机器学习做一些事情,但我对客户来说有点期限,并且很快就需要一些相当能力的东西.
所有这一切,如果有人有任何"开箱即用"思考这个,我很乐意听到它.如果我可以创建一个运行良好的解决方案,我计划为任何其他感兴趣的人开放源库:)
谢谢!