如何对URL进行分类?什么是网址功能?如何从URL中选择和提取功能

Nas*_*sir 7 url classification machine-learning feature-extraction text-classification

我刚刚开始研究分类问题.它是一个两类问题,My Trained模型(机器学习)必须决定/预测允许URL或阻止它.

我的问题非常具体.

  1. 如何对URL进行分类?我应该使用普通的文本分析方法吗?
  2. 什么是网址功能?
  3. 如何从URL中选择和提取功能?

gre*_*ess 7

我假设您无权访问URL的内容,因此您只能从url字符串本身中提取功能.否则,使用URL的内容更有意义.

以下是我将尝试的一些功能.有关更多想法,请参阅文章:

  1. 所有网址组件.例如,此页面包含以下网址:

    http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features

在URL的不同部分中出现的所有令牌应具有可变的分类值.在这种情况下,标记化后的最后一部分为此页面提供了很多功能.(例如,分类,网址,选择,提取,功能)

 * stackoverflow
 * com
 * questions
 * 26456904
 * how to classify urls what are urls features how to select and extract features
Run Code Online (Sandbox Code Playgroud)
  1. 网址的长度;
  2. n-gram(以下2克为例)
    • 计算器-COM
    • COM-问题
    • 问题 - 26456904
    • 26456904知识
    • 如何
    • ....