找出网站是否是博客的算法?

ste*_*nos 2 algorithm blogs web

这是一个创意之一:-)

我将定期收到数百个新网址的列表,并希望了解它们是否链接到博客 - 准确度在80%到95%之间就足够了.

显然我需要分析页面的HTML - 但你究竟会如何处理这个问题(例如元标记,结构分析,模式匹配,机器学习......)?

Dar*_*rov 5

我会查看<meta>已知博客编辑的生成器标签.例如,这是它如何寻找Wordpress:

<meta name="generator" content="WordPress.com" /> 
Run Code Online (Sandbox Code Playgroud)

  • +1.简单有效的策略,可以通过DNS轻松扩展已知的博客主机. (3认同)