新足迹

 找回密码
 注册

精华好帖回顾

· 半月谈 - 中国摇滚音乐教父崔健 (2009-7-31) zmzhu · 因为春天——宏图细绘周日的brunch party(顺便跟大家分享下凝凝是怎么在家准备午餐会滴)蛋糕方子补完 (2011-9-19) feicunzic
· 果酸大概论及几个明星产品的评价 (2007-1-21) 飞行 · 北京承德深度精品文化亲子。。。全程无购物。。。8日自助游(真人秀陆续登场,欢迎围观)- 更新完毕 (2013-4-25) 缓缓
Advertisement
Advertisement
查看: 3537|回复: 4

用python查找重复的文件?求教 [复制链接]

发表于 2015-7-5 00:03 |显示全部楼层
此文章由 天字第一号 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天字第一号 所有!转贴必须注明作者、出处和本声明,并保持内容完整
NAS上备份的照片有很多重复备份了的,没法一张张肉眼对比来删除多余的,有一些照片不知道怎么回事文件名和原始照片差别很大,没有规律。
现在想用python来查找出重复的照片,然后只保留一张,其它删除。

打算先计算出每张照片的md5 sum值然后再逐一遍历再比较,不知道这样是不是查找对比的准确率会比较有保证?但是照片多,效率好像有点低

另外,还想请问一下大家还有什么方法进行比较比遍历的效率高点??

楼主没什么编程经验,全靠自学,希望高手们指点一二。
否极泰来
Advertisement
Advertisement

发表于 2015-7-5 06:04 |显示全部楼层
此文章由 newtoall 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 newtoall 所有!转贴必须注明作者、出处和本声明,并保持内容完整
How about sort by size and then put exactly same size ones into select to delete ones ? Probably easier

评分

参与人数 1积分 +2 收起 理由
天字第一号 + 2 感谢分享

查看全部评分

发表于 2015-7-5 12:15 |显示全部楼层
此文章由 5.5 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 5.5 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主家有windows7/8 否? , run below in   powershell
第一行 是算hash的, 巨慢 (no win7)
第一行 是算file size的, 巨快  (win7/8)   @newtoall
请叫我雷锋


( Get-ChildItem -file -path C:\HomePicture\2015-01-01\*.JPG  |   Get-FileHash |  select hash,Path  | group -Property Hash | sort count |Where-Object {$_.Count -gt 1} ).Group

(Get-ChildItem -file -path C:\HomePicture\2015-01-01\*.JPG -Recurse |     select Length,fullname  | group -Property Length | sort count|Where-Object {$_.Count -gt 1} ).Group

评分

参与人数 1积分 +2 收起 理由
天字第一号 + 2 感谢分享

查看全部评分

发表于 2015-7-6 09:39 |显示全部楼层
此文章由 jaszhou 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 jaszhou 所有!转贴必须注明作者、出处和本声明,并保持内容完整

评分

参与人数 1积分 +2 收起 理由
天字第一号 + 2 感谢分享

查看全部评分

发表于 2015-7-7 18:17 |显示全部楼层
此文章由 全麦面包 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 全麦面包 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不能用,要pin

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部