用于数据分类的机器学习算法.

twk*_*twk 5 classification machine-learning

我正在寻找一些关于我应该研究哪些技术/算法来解决以下问题的指导.我目前有一种算法可以使用声学指纹识别类似声音的mp3.在每个群集中,我拥有每个文件的所有不同元数据(歌曲/艺术​​家/专辑).对于该群集,我想选择与我的数据库中现有行匹配的"最佳"歌曲/艺术​​家/专辑元数据,或者如果没有最佳匹配,则决定插入新行.

对于群集,通常有一些正确的元数据,但单个文件有许多类型的问题:

  • 艺术家/歌曲完全被错误命名,或者只是略有错误
  • 缺少艺术家/歌曲/专辑,但剩下的信息就在那里
  • 这首歌实际上是一个现场录音,但只有集群中的一些文件被标记为这样.
  • 可能只有很少的元数据,在某些情况下只是文件名,可能是艺术家 - 歌曲.mp3,或艺术家 - 专辑 - song.mp3,或其他变体

一个简单的投票算法运作得相当好,但是我希望能够在一大堆数据上进行训练,这些数据可能会比我现在所获得的更多细微差别.任何与论文或类似项目的链接都将不胜感激.

谢谢!

Tan*_*ir1 2

编辑距离是衡量两个字符串之间“距离”的度量。它计算通过添加/删除/更改字符将一个字符串更改为另一个字符串的操作次数。

您可以使用此算法来帮助处理拼写错误。如果两个字符串非常接近,那么很可能是拼写错误。

http://en.wikipedia.org/wiki/Levenshtein_distance