Kei*_*son 5 screen-scraping html-parsing
首先,这不是关于如何刮网站的问题.我完全清楚可以使用的工具(css_parser,nokogiri等等.我正在使用Ruby进行抓取).
这是一个关于最好的解决方案的首要问题,这个解决方案只能从网站地址开始抓取网站的徽标.
我开始创建的两个解决方案是:
解决方案二是有问题的,因为所有为网站编写CSS的人都有很多特质.他们在文件名中使用Header而不是徽标.有时文件名是随机的,对徽标一无所知.其他时候,这只是错误的形象.
我意识到我可以通过某种机器学习做一些事情,但我对客户来说有点期限,并且很快就需要一些相当能力的东西.
所有这一切,如果有人有任何"开箱即用"思考这个,我很乐意听到它.如果我可以创建一个运行良好的解决方案,我计划为任何其他感兴趣的人开放源库:)
谢谢!
通过 Clearbit 检查此 API。使用起来超级简单:
只需将查询发送至:https : //logo.clearbit.com/[enter-domain-here]
例如:https : //logo.clearbit.com/www.stackoverflow.com
并取回徽标图像!
更多关于这里
创建应用程序肯定会对您有所帮助,但我相信最终会涉及一些手动工作。这就是我要做的。
即使我们可以编写一个应用程序来真正弄清楚它是否是一个徽标,这似乎也会是大量的代码。最后,它可能会比上面的淘汰更多,但你必须考虑到,人类直观地解析结果可能比你编写和测试复杂代码所花费的时间更快。