ste*_*nos 2 algorithm blogs web
这是一个创意之一:-)
我将定期收到数百个新网址的列表,并希望了解它们是否链接到博客 - 准确度在80%到95%之间就足够了.
显然我需要分析页面的HTML - 但你究竟会如何处理这个问题(例如元标记,结构分析,模式匹配,机器学习......)?
我会查看<meta>已知博客编辑的生成器标签.例如,这是它如何寻找Wordpress:
<meta name="generator" content="WordPress.com" />
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
141 次 |
| 最近记录: |