计算机科学毕业生需要学习什么科目,主题应用可用的机器学习框架,尤其是.支持向量机

Poo*_*zer 5 classification machine-learning

我想教自己足够的机器学习,这样我就可以开始理解足够使用可用的开源ML框架,这将允许我做以下事情:

  1. 浏览某个网站的HTML源代码,并"理解"哪些部分形成内容,广告和形成元数据(无论是内容还是广告),例如.-TOC,author bio等)

  2. 浏览来自不同站点的HTML源页面,并"分类"该站点是否属于预定义类别(将提供类别列表)1.

  3. ...在文本和页面上的类似分类任务.

如您所见,我的直接要求是对不同数据源大量数据进行分类.

就我的有限理解而言,采用神经网络方法需要进行大量的训练和维护,而不是使用SVM?

据我所知,SVM非常适合像我这样的(二进制)分类任务,而像libSVM这样的开源framworks相当成熟?

在这种情况下,计算机科学毕业生现在需要学习哪些科目和主题,以便能够解决上述要求,并使用这些框架?

我想远离Java,是可能的,否则我没有语言偏好.我愿意学习并尽可能多地投入精力.

我的目的不是从头开始编写代码,而是开始使用各种框架(我不知道哪个可以决定哪个),而且我应该能够解决它们出错的问题.

关于学习统计学和概率论的特定部分的建议对我来说并不意外,所以说如果需要的话!

如果需要,我会根据您的所有建议和反馈修改此问题.

Fre*_*Foo 3

对我来说,这似乎是一项相当复杂的任务;步骤 2,分类,很“简单”,但步骤 1 似乎是一个结构学习任务。您可能希望将其简化为对 HTML 树的某些部分进行分类,可能是通过某种启发式方法预先选择的。