如何使用机器学习对网址进行分类?

Pic*_*ico 5 url machine-learning

我正在索引网站的内容,我想仅根据网址实现一些分类.

我想从导航页面告诉appart内容视图页面."内容查看页面"是指网页,通常可以看到产品或书面文章的详细信息."导航页面"是指(通常)由内容页面链接列表或其他更具体的列表页面组成的页面.

尽管一些站点使用站点范围的密钥系统来映射其内容,但是大多数站点都是一点一点地进行映射,因此这应该是可能的.

在实践中,我想要做的是从网站获取网址列表并按相似性对它们进行分组.我相信这可以通过机器学习完成,但我不知道如何.机器学习似乎是一个广泛的主题,我应该特别开始阅读什么?哪个概念,哪个算法,哪个工具?

Ben*_*son 3

如果你想自动发现这些组,我建议你自己找到一个聚类算法的实现(K-Means可能是最流行的,你不用说你想用什么语言来做到这一点)。您知道有两个类别,因此允许您先验指定类别数量的东西将使问题变得更容易。

之后,为您的网页定义一系列特征,并通过 k-means 运行它们以查看生成的组类型。调整您使用的功能,直到获得看起来令人满意的功能。如果您可以访问网页本身,我强烈建议您使用在整个页面上定义的功能,而不仅仅是 URL。