eun*_*216 6 url open-source classification web-content taxonomy
给定n个原始URL,我希望能够通过以下方式对它们进行分类:新闻,博客,照片和视频.
例如,如果链接将用户定向到照片,是否足以说原始链接包含图像的文件扩展名,以便能够将原始URL分类为照片?
至于视频,博客和新闻,似乎还不足以拥有一组将原始URL分类的域(如http://www.youtube.com).
可以通过检查网络内容来完成分类吗?或者是否有任何开源工具?
唯一可以稍微可靠地分类的 URL 是那些指向不同介质的 URL(即http://foo.com/foo.jpg肯定是图像)。否则,您必须分析页面的内容。
这可能有点棘手,因为 Flash 可能包含照片、视频或两者都不包含,而不提供有关 Flash 对象内容的任何可搜索线索。只要付出足够的努力,这个问题显然是可以克服的(谷歌做到了!),但我不知道有任何开源资源提供媒体相关领域的库。这些数据来自程序员无数个小时的努力——这种努力通常是为了寻求投资回报(ROI)。举个例子,ClueWeb09只是下载页面的数据集,用于测试搜索算法 - 并未真正排序或分类。
“有时候,没有帮助就是答案。”