SoftMaker logo

Bytes und mehr

Duplikate ausmisten: Strategien & Werkzeuge

Es ist nie verkehrt, von wichtigen Dateien mehrere Kopien aufzubewahren. Irgendwann haben Sie jedoch womöglich viel mehr Duplikate, als Sie brauchen. Die füllen dann Ihre Festplatten oder sind einfach nur im Weg.

Es ist nicht ganz einfach, überzählige Duplikate loszuwerden, ohne dabei Kollateralschäden zu produzieren. Bevor Sie Dateien löschen, sollten Sie unbedingt sicherstellen, dass diese wirklich redundant sind und nicht nur denselben Namen tragen. Um Dubletten sicher zu löschen, brauchen Sie zwei Dinge: einen guten Dublettenfinder und eine Strategie, ihn optimal zu nutzen.

Duplikate sind nicht immer schlecht

Allgemein gesprochen sind Duplikate nicht nur gut, sondern essenziell. Windows selbst hält von einigen wichtigen Dateien mehrere Kopien vor, die Sie tunlichst in Frieden lassen sollten. Auch wenn es etwa überflüssig erscheinen mag, dass in jedem Fotoordner eine desktop.ini-Datei liegt: jede davon erfüllt tatsächlich einen Zweck.

Generell wird dazu geraten, von jeder Datei, die Ihnen wichtig ist, drei Kopien aufzubewahren. Vermutlich haben Sie schon von der 3-2-1-Backup-Regel gelesen, sie ist ziemlich einfach:

3 - Stellen Sie sicher, dass Sie mindestens drei Kopien aller Dateien haben,
2 - zwei Sicherungskopien davon auf verschiedenen Speichermedien, sowie
1 - eine Sicherung, die Sie nicht am selben Ort aufbewahren wie die anderen Backups.

Das klingt simpel; die Umsetzung hat aber ihre Tücken.

Nehmen wir an, Sie sind ein wenig wie ich und haben versucht, die 3-2-1-Backup-Regel zu befolgen. Dann haben Sie die Dinge für eine Weile schleifen lassen und jetzt versuchen Sie, wieder auf Kurs zu kommen. Inzwischen haben sich wahrscheinlich viel mehr Kopien angesammelt, als Sie eigentlich brauchen, womöglich auch noch wild verstreut.

Für meinen Teil musste ich feststellen, dass ich mehr Ordner mit potenziellen Duplikaten vorfand, als ich von Hand aussortieren konnte. Sie waren auf mehrere Festplatten verteilt, einige davon intern, andere extern. Einige Duplikate waren entstanden, als ich mal schnell USB-Sticks vor dem Ausleihen geleert hatte, andere waren die Reste einer Rettungsaktion, bei der ich verzweifelt versucht hatte, Daten von einer defekten Platte zu retten.

Dann gab es noch einen uralten Backup-Ordner mit Fotos, die ich auf eine Art kategorisiert hatte, die ich inzwischen längst aufgegeben habe. Zusätzlich hatte ich drei ziemlich unhandliche Musiksammlungen ausgegraben, die ich von diversen portablen Playern gerettet hatte, bevor sie in den Ruhestand gingen.

Wie geht man mit so einem Schlamassel am besten um...?

Erreichbare Ziele setzen

Die genauen Ziele bei der Beseitigung von Dubletten hängen direkt von der jeweiligen Situation ab.

Wenn Ihr Speicherplatz knapp wird, werden Sie sich auf große Brocken konzentrieren wollen: Backup-Container, Videos, Musik und Fotos – in dieser Reihenfolge. Office-Dokumente sind in der Regel zu klein, um hier eine große Rolle zu spielen; selbst Fotos und Audiodateien sind möglicherweise Zeitverschwendung, solange Ihre externen Festplatten mit alten System-Backups verstopft sind.

Bei einem konkreten Ziel, z.B. die Fotoordner oder eine weitläufige Musiksammlung auf Vordermann zu bringen, werden Ihre Prioritäten anders aussehen: Sie wollen nicht nur exakte Duplikate aufspüren, sondern auch Kopien von Fotos in reduzierter Auflösung sowie ältere, minderwertige Rips Ihrer Lieblingsalben, die Sie inzwischen in einem hochwertigeren Format haben.

Setzen Sie zunächst klare Prioritäten, bevor Sie beginnen. Ein solches Projekt kann sich hinziehen, verrennen Sie sich also nicht. Es gibt kaum etwas Frustrierenderes, als eine verbissene Duplikatjagd aufzugeben, weil es zu langweilig geworden ist, um ein paar Monate später mit lückenhafter Erinnerung an Ihr ursprüngliches Vorhaben zur abgebrochenen Aufgabe zurückzukehren.

Mir half es, eine Liste mit konkreten Bedürfnissen und Zielen anzulegen: „Bevor ich meine interne Festplatte ausmisten kann, muss ich Platz auf meinen externen Platten schaffen, beginnend mit ...“ Im Zuge der Umsetzung habe ich die Liste immer wieder aktualisiert und die erledigten Aufgaben abgehakt. So verschaffte ich mir immer wieder das Bewusstsein, dass es voranging, was meine Motivation aufrecht hielt. Ach ja, und ich hörte eine Menge meiner Lieblingsmusik, was mir die Plackerei versüßte.

Ein paar weise Ratschläge

Bevor Sie anfangen, etwas zu löschen, stellen Sie sicher, dass Sie tatsächlich drei Kopien von allem haben. Das ist wirklich wichtig. Falls nötig, sollten Sie eine neue externe Festplatte anschaffen, um die auszuwertenden Daten zu sichern, bevor Sie weitermachen.

Die folgenden Ratschläge basieren auf bitteren eigenen Erfahrungen.

Stellen Sie bei Sicherungen unbedingt sicher, dass Sie Ihre Daten nur kopieren. Verschieben Sie niemals Dateien von einem Laufwerk auf ein anderes. Kopieren Sie die Dateien, stellen Sie dann sicher, dass die kopierten Daten mit den Originalen identisch sind, und löschen Sie dann erst die Originale. Warum betone ich das so? Nun, mir ist mal eine nagelneue externe Festplatte gestorben, nachdem ich gerade einige unersetzliche Tonaufnahmen darauf verschoben hatte. Das passiert mir nie wieder.

Windows-Tools wie FastCopy und TeraCopy vergleichen die Prüfsummen der Originale und Kopien direkt nach der Übertragung. Alternativ lassen sich kopierte Dateien nachträglich mit einem externen Tool wie Beyond Compare oder WinMerge überprüfen.

Wahl der Werkzeuge

Dublettensucher gibt es für Linux, macOS und Windows. Viele sind kostenlos, einige sind unverschämt bepreist. Am besten probieren Sie zunächst aus, wie weit Sie mit den kostenlosen Werkzeugen kommen.

dupeGuru (Linux, macOS, Windows) ist ein Veteran unter den kostenlosen Duplikat-Findern: Er stammt aus dem Jahr 2004 – und so sieht er auch aus. Das Tool kennt drei Anwendungsmodi: Standard, Musik und Bild. Der Modus „Standard“ findet binäre Duplikate, also Dateien, deren Größe und Inhalt identisch ist. Der Modus „Musik“ vergleicht die Tags von Audiodateien und findet so auch Dubletten, die in unterschiedlichen Formaten oder mit unterschiedlichen Bitraten codiert sind.

Obwohl der Modus „Bild“ auch Ähnlichkeitsgrade unterstützt, fehlt ein integrierter Bildbetrachter, um potenzielle Duplikate unmittelbar vergleichen zu können. Windows-Benutzer sollten sich stattdessen SimilarImages oder VisiPics ansehen. Beide Tools sind ebenfalls kostenlos.

Bevor Sie nach Duplikaten in verschiedenen Ordnern oder auf verschiedenen Laufwerken suchen, sollten Sie sicherstellen, dass Sie einen der Pfade als „Referenz“ markieren. Das beschleunigt den Löschvorgang, da die Anwendung verhindern wird, dass Sie Dateien aus den Referenzordnern löschen. Bei der Suche nach Duplikaten innerhalb desselben Verzeichnisses sollten alle Pfade als „normal“ markiert bleiben.

AllDup ist nur für Windows verfügbar. Es unterstützt ebenfalls ungenaue Suchmethoden für Musik und Bilder, aber die Oberfläche ist etwas moderner. Die interne Bildvorschau ist ein wenig versteckt: Sie erreichen Sie über den Punkt „Dateivorschau“ aus dem Suchergebnis-Menü.

Similarity ist auf Bild- und Audiovergleiche spezialisiert und für macOS und Windows verfügbar. Die Basisfunktionen sind kostenlos, aber die meisten zeitsparenden Features sind zahlenden Kunden vorbehalten – einschließlich OpenCL-Beschleunigung und automatischer Dublettenauswahl. Die Premium-Version kostet im ersten Jahr 20 Dollar, Verlängerungen kosten 10 Dollar.

Online-Vergleiche kostenloser Duplikatsucher führen oft den Auslogics Duplicate File Finder auf. Dieses Tool hat zwar eine freundlich aussehende Oberfläche, der Funktionsumfang ist aber stark eingeschränkt: Das Auslogics-Tool findet nur exakte binäre Duplikate. Darüber hinaus versucht das Installationsprogramm, die Benutzer zur Weitergabe „anonymer Informationen“ zu überreden, will die Anwendung bei jedem Windows-Start starten und bietet die Installation zweier zusätzlicher Anwendungen an. Insgesamt ist das Ganze in erster Linie ein Werbeplakat.

Für kleinere Dateien eignen sich dupeGuru und AllDup gut, aber bei großen Dateien kommen ihre Vergleichsalgorithmen und Speicherverwaltung mitunter ins Stolpern, d.h. bei allem jenseits von 1 GB. Ich habe mich schließlich für eine kommerzielle Alternative entschieden. Duplicate Cleaner kostet einmalig 42 Euro, hat eine unkomplizierte Oberfläche und identifiziert zuverlässig binäre Duplikate, enge Übereinstimmungen und ähnliche Audio- und Bilddateien. Es hat sich auch als sehr stabil im Umgang mit großen Dateien erwiesen. Misslungen ist nur die deutsche Lokalisierung – hier empfiehlt es sich, die Oberfläche auf Englisch zu stellen.

Binäre Duplikate aussieben

Das Auffinden von binären Duplikaten ist relativ einfach. Anstatt jede Datei Bit für Bit zu vergleichen, ermitteln die Anwendungen über einen Hash-Algorithmus Prüfsummen der Dateiinhalte. Die Berechnung dieser Hashes dauert eine Weile – je größer die Datei, desto länger.

Die meisten Dublettenfinder verwenden MD5- oder SHA1-Hashes: Obwohl beide Standards aus kryptografischer Sicht als „kaputt“ gelten, sind sie schnell und für Dateivergleiche immer noch gut genug. Sofern Sie keinen Anlass zur Sorge haben, dass jemand die Dateien auf Ihrer Festplatte absichtlich manipulieren könnte, um falsche Duplikate zu erzeugen, sollten MD5-Hashes ausreichen.

Bevor Sie einen Duplikatfinder Ihre Dateien analysieren lassen, sollten Sie prüfen, wie viele Daten Sie ihm füttern. Windows-Anwender wählen für eine schnelle Überprüfung im Windows-Explorer den zu analysierenden Ordner aus, drücken Alt+Eingabetaste und gucken auf den Eintrag „Größe“ im Dialogfenster „Eigenschaften“.

Sollte sich Ihr Dublettenfinder anschicken, 500 GB oder mehr zu verarbeiten, hat es keinen Sinn, sitzen zu bleiben und auf den Fortschrittsbalken zu starren: Holen Sie sich einen Kaffee, kehren Sie zurück und rechnen Sie dann hoch, wie viele Kaffeepausen die Software wohl für die Berechnung der Hashes benötigen mag. Es kann sich lohnen, den Duplikat-Finder über Nacht arbeiten zu lassen und die Ergebnisse erst am nächsten Morgen zu überprüfen.

Doppelte Bilder und Musik erkennen

Wenn Sie binäre Vergleiche zäh finden, wird Sie das Tempo beim Vergleich von Bildern und Musik nicht freuen. Der Vergleich von Bildern erfordert weit mehr CPU-Ressourcen als einfache Prüfsummenberechnungen. Aus diesem Grund sollten Sie wahrscheinlich mit einem Binärvergleich beginnen (am schnellsten), dann einen Bildvergleich ohne EXIF-Metadaten versuchen (immer noch ziemlich schnell) und schließlich nach Ähnlichkeiten suchen (Zeit für eine Kaffeepause).

Der Vergleich von Audiodateien kann ähnlich ablaufen: In Duplicate Cleaner Pro wähle ich zuerst „Match exact audio data (ignore tags)“, dann fahre ich mit „Similar audio - Compare full file“ fort – auch wenn diese Modi viel Zeit brauchen, liefern sie die zuverlässigsten Ergebnisse. „Match audio tags only“ kann auch funktionieren (markieren Sie „Similar artist“, „Same title“ und „Similar album“) – hier hängt die Qualität der Ergebnisse aber ganz davon ab, wie sauber Ihre Musikbibliotheken verschlagwortet sind.

Digitaler Hausputz: Leere Ordner löschen

Die meisten Dublettenreiniger versuchen, nach dem Putzen etwas aufzuräumen: Wenn das Löschen der Duplikate zu leeren Unterordnern führt, bieten sie an, auch diese Ordner zu löschen. Bei verschachtelten Ordnern bleiben aber oft Reste übrig.

Die Lösung ist entweder eine einfache Batch-Datei oder ein spezielles Tool. Mir ist die Windows-Freeware „Remove Empty Directories“ ans Herz gewachsen – sie arbeitet schnell und bietet die Möglichkeit, Ordner, die man vielleicht behalten möchte, gezielt zu verschonen.

Wiederholungen vermeiden

Die gründliche Beseitigung aller Duplikate kann Tage dauern. Bei großen binären Duplikaten verstreicht die meiste Zeit mit den Vergleichen selbst. Bei der Suche nach redundanten Bildern kostet es die meiste Zeit, per Hand zu prüfen, ob Dubletten unterhalb der 90-Prozent-Schwelle auch wirklich identisch sind. Bei Audiodateien können die Vergleiche lange dauern, dafür ist der Prozess der Eliminierung ziemlich unkompliziert.

Meine persönliche Deduplizierungs-Odyssee fraß viel mehr Zeit, als ich erwartet hatte. Immerhin: Am Ende hatte ich zwei leere 4-TB-Festplatten. Im Laufe meiner digitalen Hausreinigung stellte ich auch fest, dass drei externe Platten erste Ausfallerscheinungen zeigten. Hätte ich das nicht rechtzeitig bemerkt, wären wahrscheinlich einige wichtige Daten verloren gegangen.

Erzählen Sie mir in den Kommentaren, wie Sie Ihre Duplikaten handhaben. Haben sich bei Ihnen womöglich andere Strategien bewährt? Welche Werkzeuge setzen Sie ein?

Kommentare

Hans 2021-11-26 10:13
www.duplicate-finder.com/photo.html
Ich verwende das genannte Programm (Freeware) Awesome Duplicate Photo Finder Version 1.2 und bin damit sehr zufrieden. Es ist übersichtlich und leicht zu bedienen. Ich verwende es lediglich für Fotos. - Um doppelte sonstige Dateien zu finden verwende ich den TotalCommander.
Antworten
Thomas Merz 2021-11-19 12:23
Hallo,

Wenn es um 1:1 Duplikate geht, nutze ich "fdupes" auf Linux:
askubuntu.com/.../...
en.wikipedia.org/wiki/Fdupes

Damit dauert das scannen und finden auf einer SSD von 34.000 Musik- bzw. 65.000 Bild-Dateien nur 10 bzw. 15 Sekunden :-)

Ganz "Wagemutige" können auch gleich löschen lassen - das würde ich aber sehr mit großer Vorsicht genießen!

-d --delete prompt user for files to preserve and delete all
others; important: under particular circumstances,
data may be lost when using this option together
with -s or --symlinks, or when specifying a
particular directory more than once; refer to the
fdupes documentation for additional information
-N --noprompt together with --delete, preserve the first file in
each set of duplicates and delete the rest without
prompting the user
-I --immediate delete duplicates as they are encountered, without
grouping into sets; implies --noprompt

Viele Grüße
Thomas Merz
Antworten
Hello 2021-11-18 23:29
I use CloneSpy to find duplicates, very easy to use, small and there is a portable version. FreeCommander has a built-in synchronising feature of directories and subdirectories, finding also differences between files (so you can choose to keep newer files, delete obsolete files in backups etc.)
Antworten

Kommentar schreiben

Vielen Dank.

Das Produkt wurde in den Einkaufswagen gelegt.