在Python中查看两个文件内容是否相同的最简单方法是什么?
我能做的一件事是每个文件md5并进行比较.有没有更好的办法?
我怎样才能检测到(最好用Python)可以用不同比特率编码的重复MP3文件(但它们是同一首歌)和可能不正确的ID3标签?
我知道我可以对文件内容进行MD5校验和,但这对于不同的比特率不起作用.我不知道ID3标签是否对生成MD5校验和有影响.我应该重新编码具有不同比特率的MP3文件,然后我可以进行校验和吗?您有什么推荐的吗?
我慢慢地,但肯定地教自己Python.我做得最好.我正在寻找一些整洁的系统生产力程序,我可以尝试制作你发现对自己有用的程序.我成功制作和使用的一些模块如下:
但我现在有点卡住了.我还能做什么?
我的任务是整合大约15年的实验室记录,其中大部分是学生作业或原始数据.我们正在谈论100,000多个人工生成的文件.
我的计划是编写一个Python 2.7脚本,它将映射整个目录结构,为每个目录结构创建校验和,然后标记重复项以进行删除.我预计可能会有10-25%的重复.
我的理解是MD5碰撞在理论上是可能的,但是这不太可能,这实际上是一个安全的程序(假设如果发生1次碰撞,我的工作将是安全的).
这是一个安全的假设吗?如果实现很重要,我打算使用的唯一Python库是:
hashlib 校验和;sqlite 用于数据处理结果; os 用于目录映射