Bei der Datenbereinigung (Data Cleaning) werden veraltete, unvollständige, doppelte, falsche und nicht mehr benötigte Daten identifiziert und gelöscht. Dabei werden alle Datensätze, die in verschiedenen Speicherorten gelagert sind, miteinander verglichen, ausgewertet, identifiziert und nachfolgend bei Bedarf gelöscht oder korrigiert und/oder komplettiert.
Alle nicht notwendigen Daten werden dabei gelöscht, um die Genauigkeit der Unternehmensdaten zu maximieren.
Die Datenbereinigung legt dabei den Grundstein für den Analyse-Prozess und sorgt dafür, dass Analysetools schneller und gezielter auf die richtigen Datensätze zugreifen können.
Warum ist Data Cleaning wichtig?
Als Teilprozess von professionellen Datenmanagement trägt Data Cleaning stark dazu bei die Datenqualität im eigenen Unternehmen deutlich zu steigern.
Diese ist einer der wichtigsten Erfolgsfaktoren von zielgerichteten Marketing- und Saleskampagnen.
Weiterhinsind korrekte und vollständige Daten der Grundstein für sämtliche Analyse-Prozesse im Unternehmen. Selbst die besten Predictivte Analytics, BI-Tools und KI-Anwendungen bringen falsche Ergebnisse, wenn die verwendete Datenbasis fehlerhaft ist.
Die Folgen können fehlerhafte Entscheidungen, falsche ausgerichtete Marketing-, Sales- oder Gesamtunternehmensstrategien sein, die sich in unnötig hohen Kosten und verpassten Umsatzschancen bemerkbar machen.
Welche Arten von fehlerhaften Daten werden bei Data Cleaning bereinigt?
Die Datenbereinigung behebt eine Reihe von Fehlern und Problemen in Datensätzen, einschließlich ungenauer, ungültiger, inkompatibler und beschädigter Daten. Einige dieser Probleme werden durch menschliche Fehler während des Dateneingabeprozesses verursacht, während andere auf die Verwendung unterschiedlicher Datenstrukturen, Formate und Terminologien in separaten Systemen innerhalb einer Organisation zurückzuführen sind.
Die Datenbereinigung entfernt redundante Daten aus Datensätzen, was die Datenvorbereitung rationalisiert und die erforderliche Menge an Datenverarbeitungs- und Speicherressourcen reduziert.
a) Tippfehler und ungültige oder fehlende Daten
Die Datenbereinigung korrigiert verschiedene strukturelle Fehler in Datensätzen. Dazu gehören beispielsweise Rechtschreib- und andere Tippfehler, falsche Zahleneingaben, Syntaxfehler und fehlende Werte, wie leere oder Nullfelder, die Daten enthalten sollten.
b) Inkonsistente Daten
Namen, Adressen und andere Attribute sind oft von System zu System unterschiedlich formatiert. Beispielsweise kann ein Datensatz den mittleren Anfangsbuchstaben eines Kunden enthalten, während ein anderer dies nicht tut. Auch Datenelemente wie Begriffe und Kennungen können variieren. Die Datenbereinigung trägt dazu bei, sicherzustellen, dass die Daten konsistent sind, damit sie genau analysiert werden können.
c) Doppelte Daten / Dubletten
Die Datenbereinigung identifiziert doppelte Datensätze in Datensätzen und entfernt oder führt sie durch den Einsatz von Deduplizierungsmaßnahmen zusammen. Wenn beispielsweise Daten aus zwei Systemen kombiniert werden, können doppelte Dateneinträge abgeglichen werden, um einzelne Datensätze zu erstellen.
d) Veraltete Daten
Firmen ziehen um, werden geschlossen oder gehen insolvent. Ansprechpartner verändern sich ebenso im Unternehmen.
Eine regelmäßige Datenaktualisierung trägt dazu bei, dass Marketing- und Saleskampagnen nicht ins Leere laufen und mit viel manuellem Aufwand neue Adressen und/oder Telefonnummern und/oder Ansprechpartner recherchiert werden müssen.
Gereinigte Daten sind:
Einsatz von Data Cleaning-Tools zur Datenbereinigung
Um die Datenbereinigung zu automatisieren und Fehler besser korrigieren zu können, werden Cleaning-Tools eingesetzt, die unter anderem über folgende Funktionen verfügen:
Was sind die Schritte im Data Cleaning Prozess?
1) Inspektion und Profilerstellung
Zunächst werden die Daten überprüft und geprüft, um ihr Qualitätsniveau zu bewerten und Probleme zu identifizieren, die behoben werden müssen. Dieser Schritt beinhaltet in der Regel die Erstellung von Datenprofilen, die Beziehungen zwischen Datenelementen dokumentiert, die Datenqualität prüft und Statistiken zu Datensätzen sammelt, um Fehler, Diskrepanzen und andere Probleme zu finden.
2) Matching mit einer Firmendatenbank
Um inaktive und insolvente Firmen identifizieren zu können, wird der zu säubernde Firmendatenbestand mit einer Firmendatenbank gematcht.
Weiterhin können darauf basierend auf Wunsch fehlende Firmeninformationen wie z. B. Telefonnummer, Website, Branche oder Anzahl der Mitarbeiter angereichert werden. Somit wird z. B. für Zielgruppenselektionen im Marketing eine perfekte Datengrundlage geschaffen.
3) Datenbereinigung / Data Cleaning
Dies ist das Herzstück des Bereinigungsprozesses, wenn Datenfehler korrigiert und inkonsistente, doppelte und redundante Daten behoben werden.
4) Überprüfung
Nachdem der Bereinigungsschritt abgeschlossen ist, werden die Daten auf ihre Sauberkeit, Vollständigkeit und Korrektheit geprüft, sodass die internen Datenqualitätsregeln und -standards erfüllt werden.
5) Reporting
Die Ergebnisse der Datenbereinigungsarbeit sollten dann an IT- und Geschäftsleiter gemeldet werden, um Trends und Fortschritte bei der Datenqualität hervorzuheben. Der Bericht könnte die Anzahl der gefundenen und behobenen Probleme sowie aktualisierte Metriken zum Qualitätsniveau der Daten enthalten.
6) Regelmäßige Updates
Fehlerhafte Dateneingaben kann man teilweise mit einer entsprechenden Konfiguration der verwendeten Software-Lösungen und dort integrierter Plausibilitätsprüfungen begegnen. Jedoch kann es dennoch zu menschlichen Fehlern kommen.
Darüber hinaus ändern sich Firmenkontaktdaten und Ansprechpartner unaufhörlich.
Allein in Deutschland werden pro Jahr rund 700.000 Firmen neu gegründet, 500.000 Gewerbe werden abgemeldet und rund 13.000 gehen in die Insolvenz (Quelle: https://www.destatis.de/DE/Themen/Branchen-Unternehmen/Unternehmen/Gewerbemeldungen-Insolvenzen/_inhalt.html).
Daher empfiehlt es sich zumindest einmal pro Quartal den eigenen Datenbestand auf einen aktuellen und korrekten Stand zu bringen.
7) Integration in die eigene Systemlandschaft
Im Idealfall wird ein Data Cleaning Service an das führende IT-System (oftmals ein CRM-System) angebunden.
CRM- und ERP-Systeme verfügen zwar in der Regel im Standard über eine eigene Dublettenprüfung. Jedoch ist diese nur sehr einfach realisiert und kann hinsichtlich der Erkennungsquote nicht mit professionellen Data Cleaning-Lösungen mithalten. Somit kann beste Datenqualität zu jedem Zeitpunkt gewährleistet werden.