多语言数据的特征选择和无监督学习+机器学习算法选择

Question

问题

我想将一组数千个网站分类/分类/集群/组合在一起.有我们可以训练的数据,所以我们可以进行有监督的学习,但这不是我们收集的数据,我们也不会坚持使用它 - 所以我们也在考虑无监督学习.

我可以在机器学习算法中使用哪些功能来处理多语言数据？请注意,其中一些语言可能尚未在自然语言处理字段中处理.
如果我使用无监督学习算法,我应该只按语言划分数据并以不同方式处理每种语言吗？不同的语言可能有不同的相关类别(或不,取决于您的心理语言学理论倾向),这可能会影响分区决策.
我正在考虑使用决策树,或者支持向量机(SVM)来允许更多功能(根据我对它们的理解).这篇文章建议随机森林而不是SVM.有什么想法吗？

欢迎实用的方法!(理论上也是如此,但这些可能会被保存起来以供以后使用.)

一些背景

我们正试图用3到5种语言对数千个网站的语料库进行分类(可能高达10种,但我们不确定).

我们以数百个已经分类的网站的形式提供培训数据.但是,我们可以选择是否使用该数据集 - 如果其他类别更有意义,我们愿意不使用我们拥有的培训数据,因为它不是我们首先收集的内容.我们正处于从网站上抓取数据/文本的最后阶段.

现在我们必须决定上述问题.我已经与Brown Corpus和Brill tagger做了一些工作,但由于多语言问题,这不起作用.

我们打算使用Orange机器学习包.

Answer 1

根据您提供的上下文，这是一个监督学习问题。因此，您正在进行分类，而不是聚类。如果我误解了，请更新您的问题以说明这一点。

我将从最简单的功能开始，即对页面的 unicode 文本进行标记，并使用字典将每个新标记转换为数字，并简单地将标记的存在视为一种功能。

接下来，我会使用最简单的算法 - 我倾向于使用朴素贝叶斯，但如果您有一种简单的方法来运行 SVM，这也很好。

将您的结果与一些基线进行比较 - 比如说将最常见的类别分配给所有页面。

最简单的方法就足够了吗？如果没有，请开始迭代算法和功能。