twk*_*twk 5 classification machine-learning
我正在寻找一些关于我应该研究哪些技术/算法来解决以下问题的指导.我目前有一种算法可以使用声学指纹识别类似声音的mp3.在每个群集中,我拥有每个文件的所有不同元数据(歌曲/艺术家/专辑).对于该群集,我想选择与我的数据库中现有行匹配的"最佳"歌曲/艺术家/专辑元数据,或者如果没有最佳匹配,则决定插入新行.
对于群集,通常有一些正确的元数据,但单个文件有许多类型的问题:
一个简单的投票算法运作得相当好,但是我希望能够在一大堆数据上进行训练,这些数据可能会比我现在所获得的更多细微差别.任何与论文或类似项目的链接都将不胜感激.
谢谢!
编辑距离是衡量两个字符串之间“距离”的度量。它计算通过添加/删除/更改字符将一个字符串更改为另一个字符串的操作次数。
您可以使用此算法来帮助处理拼写错误。如果两个字符串非常接近,那么很可能是拼写错误。
http://en.wikipedia.org/wiki/Levenshtein_distance
| 归档时间: |
|
| 查看次数: |
2031 次 |
| 最近记录: |