art*_*omp 5 nlp artificial-intelligence classification machine-learning data-mining
问题
我想将一组数千个网站分类/分类/集群/组合在一起.有我们可以训练的数据,所以我们可以进行有监督的学习,但这不是我们收集的数据,我们也不会坚持使用它 - 所以我们也在考虑无监督学习.
我可以在机器学习算法中使用哪些功能来处理多语言数据?请注意,其中一些语言可能尚未在自然语言处理字段中处理.
如果我使用无监督学习算法,我应该只按语言划分数据并以不同方式处理每种语言吗?不同的语言可能有不同的相关类别(或不,取决于您的心理语言学理论倾向),这可能会影响分区决策.
我正在考虑使用决策树,或者支持向量机(SVM)来允许更多功能(根据我对它们的理解).这篇文章建议随机森林而不是SVM.有什么想法吗?
欢迎实用的方法!(理论上也是如此,但这些可能会被保存起来以供以后使用.)
一些背景
我们正试图用3到5种语言对数千个网站的语料库进行分类(可能高达10种,但我们不确定).
我们以数百个已经分类的网站的形式提供培训数据.但是,我们可以选择是否使用该数据集 - 如果其他类别更有意义,我们愿意不使用我们拥有的培训数据,因为它不是我们首先收集的内容.我们正处于从网站上抓取数据/文本的最后阶段.
现在我们必须决定上述问题.我已经与Brown Corpus和Brill tagger做了一些工作,但由于多语言问题,这不起作用.
我们打算使用Orange机器学习包.
根据您提供的上下文,这是一个监督学习问题。因此,您正在进行分类,而不是聚类。如果我误解了,请更新您的问题以说明这一点。
我将从最简单的功能开始,即对页面的 unicode 文本进行标记,并使用字典将每个新标记转换为数字,并简单地将标记的存在视为一种功能。
接下来,我会使用最简单的算法 - 我倾向于使用朴素贝叶斯,但如果您有一种简单的方法来运行 SVM,这也很好。
将您的结果与一些基线进行比较 - 比如说将最常见的类别分配给所有页面。
最简单的方法就足够了吗?如果没有,请开始迭代算法和功能。