我正在编写一个Python程序来查找和删除文件夹中的重复文件.
我有多个mp3文件副本和一些其他文件.我正在使用sh1算法.
如何找到这些重复文件并将其删除?
基本上,我有很多代表同一首歌的音频文件.然而,其中一些质量比原始质量差,有些被编辑到它们与原始歌曲不再匹配的地方.我想要做的是以编程方式将这些音频文件与原始文件进行比较,看看哪些音频与该歌曲匹配,无论质量如何.直接比较显然不起作用,因为文件的质量各不相同.
我相信这可以通过分析歌曲的结构并与原作进行比较来完成,但我对音频工程一无所知,所以这对我没有多大帮助.所有歌曲的格式相同(MP3).另外,我正在使用Python,所以如果有绑定,那就太棒了; 如果没有,JVM甚至本地库的东西都可以,只要它在Linux上运行,我就可以弄清楚如何使用它.
我正在尝试编写一个Python脚本,用于搜索重复的mp3/4文件,使用歌曲的数据作为比较的基础.我的情况涉及许多mp3/4文件,文件名相似,但ID3标签不同.起初我尝试循环并使用md5来查找重复文件(忽略文件名).当然,当ID3标签不匹配时,这不起作用.
因此,我正在寻找一种方法,只从mp3/4中提取音乐数据,以便通过md5运行它并找到任何重复项.最好的方法是什么?
我需要一个脚本或cmd行工具获取mp3长度,以毫秒为单位.这些文件是64 kbits mono cbr编码的跛脚.
(我找了一个红宝石的libmad,我选择的语言,但没有发现任何值得注意的......)