Data Cleaning und seine Bedeutung für Unternehmen

Bei der Datenbereinigung (Data Cleaning) werden veraltete, unvollständige, doppelte, falsche und nicht mehr benötigte Daten identifiziert und gelöscht. Dabei werden alle Datensätze, die in verschiedenen Speicherorten gelagert sind, miteinander verglichen, ausgewertet,  identifiziert und nachfolgend bei Bedarf gelöscht oder korrigiert und/oder komplettiert.

Alle nicht notwendigen Daten werden dabei gelöscht, um die Genauigkeit der Unternehmensdaten zu maximieren.
Die Datenbereinigung legt dabei den Grundstein für den Analyse-Prozess und sorgt dafür, dass Analysetools schneller und gezielter auf die richtigen Datensätze zugreifen können.

Data Cleaning - Datenbereinigung

Datenobjekte, die bei der Bereinigung identifiziert werden:

Duplikate

Datenobjekte, die mehrfach vorhanden sind.

Abgelaufene Aufbewahrungsfristen

Datenobjekte mit Informationen, für die eine zuvor festgelegte Aufbewahrungsfrist abgelaufen ist.

Doppelte Medientypen

Datenobjekte, die doppelt vorliegen und von den Systemen nicht mehr unterstützt werden.

Große Dateien

Datensätze, die extrem groß sind und viel Speicherplatz beanspruchen oder vom Unternehmen nicht mehr verwendet werden.

Ausgelaufene Projekte

Datensätze über Produkte, die von den Unternehmen nicht mehr vertrieben werden.

Ehemalige Kunden

Datensätze mit jeglichen Informationen über Kunden, die nicht mehr betreut werden.

Ehemalige Mitarbeiter

Datenobjekte mit jeglichen Informationen über ehemalige Mitarbeiter.

Warum ist Data Cleaning wichtig?

Als Teilprozess von professionellen Datenmanagement trägt Data Cleaning stark dazu bei die Datenqualität im eigenen Unternehmen deutlich zu steigern.

Diese ist einer der wichtigsten Erfolgsfaktoren von zielgerichteten Marketing- und Saleskampagnen.

Weiterhinsind korrekte und vollständige Daten der Grundstein für sämtliche Analyse-Prozesse im Unternehmen. Selbst die besten Predictivte Analytics, BI-Tools und KI-Anwendungen bringen falsche Ergebnisse, wenn die verwendete Datenbasis fehlerhaft ist.

Die Folgen können fehlerhafte Entscheidungen, falsche ausgerichtete Marketing-, Sales- oder Gesamtunternehmensstrategien sein, die sich in unnötig hohen Kosten und verpassten Umsatzschancen bemerkbar machen.

Welche Arten von fehlerhaften Daten werden bei Data Cleaning bereinigt?

Die Datenbereinigung behebt eine Reihe von Fehlern und Problemen in Datensätzen, einschließlich ungenauer, ungültiger, inkompatibler und beschädigter Daten. Einige dieser Probleme werden durch menschliche Fehler während des Dateneingabeprozesses verursacht, während andere auf die Verwendung unterschiedlicher Datenstrukturen, Formate und Terminologien in separaten Systemen innerhalb einer Organisation zurückzuführen sind.

Die Datenbereinigung entfernt redundante Daten aus Datensätzen, was die Datenvorbereitung rationalisiert und die erforderliche Menge an Datenverarbeitungs- und Speicherressourcen reduziert.

a) Tippfehler und ungültige oder fehlende Daten

Die Datenbereinigung korrigiert verschiedene strukturelle Fehler in Datensätzen. Dazu gehören beispielsweise Rechtschreib- und andere Tippfehler, falsche Zahleneingaben, Syntaxfehler und fehlende Werte, wie leere oder Nullfelder, die Daten enthalten sollten.

b) Inkonsistente Daten 

Namen, Adressen und andere Attribute sind oft von System zu System unterschiedlich formatiert. Beispielsweise kann ein Datensatz den mittleren Anfangsbuchstaben eines Kunden enthalten, während ein anderer dies nicht tut. Auch Datenelemente wie Begriffe und Kennungen können variieren. Die Datenbereinigung trägt dazu bei, sicherzustellen, dass die Daten konsistent sind, damit sie genau analysiert werden können.

c) Doppelte Daten / Dubletten

Die Datenbereinigung identifiziert doppelte Datensätze in Datensätzen und entfernt oder führt sie durch den Einsatz von Deduplizierungsmaßnahmen zusammen. Wenn beispielsweise Daten aus zwei Systemen kombiniert werden, können doppelte Dateneinträge abgeglichen werden, um einzelne Datensätze zu erstellen.

d) Veraltete Daten

Firmen ziehen um, werden geschlossen oder gehen insolvent. Ansprechpartner verändern sich ebenso im Unternehmen.

Eine regelmäßige Datenaktualisierung trägt dazu bei, dass Marketing- und Saleskampagnen nicht ins Leere laufen und mit viel manuellem Aufwand neue Adressen und/oder Telefonnummern und/oder Ansprechpartner recherchiert werden müssen.

Gereinigte Daten sind:

einheitlich strukturiert

auf dem aktuellen Stand

vollständig und genau

konsistent

Bessere Entscheidungsfindung für die Unternehmen

Durch gereinigte Daten erzielen Analyse-Anwendungen genauere Ergebnisse und das Unternehmen kann aufgrund dessen bessere Entscheidungen im Hinblick auf Strategien und Abläufe treffen.

Bessere Leistung der Unternehmen

Bei Bestandskunden können Up- und Cross-Selling-Potenziale identifiziert und zielgerichtet via Marketing- und Saleskampagnen realisiert werden. Potenzielle Neukunden können auf Basis einer Bestandskundenanalyse genau in den Fokus genommen werden.
Diese Vorteile sind dann umsetzbar, wenn das Unternehmen mit einem aktuellen, sauberen und vollständigen Datenbestand arbeitet.

Geringere Kosten

Bei gereinigten Daten ist es nicht mehr notwendig manuell z. B. fehlende Telefonnummern, neue Adressen oder Ansprechpartner zeitaufwändig zu recherchieren. 

Weiterhin wird die Suche nach Daten verkürzt, weil innerhalb des Data Cleaning verschiedene Datenquellen miteinander in Einklang gebracht werden und nachfolgend die golden records in einem System im Unternehmen hinterlegt werden.

Vertrauenswürdigkeit

Sind die Daten gereinigt, können sich Unternehmen darauf verlassen, dass die vorhandenen Daten qualitativ hochwertig sind und man sich auf sie verlassen kann.

Data Cleaning - Datenbereinigung

Einsatz von Data Cleaning-Tools zur Datenbereinigung

Um die Datenbereinigung zu automatisieren und Fehler besser korrigieren zu können, werden Cleaning-Tools eingesetzt, die unter anderem über folgende Funktionen verfügen:

fügen fehlende Werte hinzu

ersetzen ungültige Werte

Felder werden standardisiert

doppelte Datensätze werden zusammengefasst

falsche Zeichensetzung wird korrigiert

doppelte und verwandte Datensätze werden identifiziert

unkorrekte Daten werden korrigiert

Was sind die Schritte im Data Cleaning Prozess?

1) Inspektion und Profilerstellung

Zunächst werden die Daten überprüft und geprüft, um ihr Qualitätsniveau zu bewerten und Probleme zu identifizieren, die behoben werden müssen. Dieser Schritt beinhaltet in der Regel die Erstellung von Datenprofilen, die Beziehungen zwischen Datenelementen dokumentiert, die Datenqualität prüft und Statistiken zu Datensätzen sammelt, um Fehler, Diskrepanzen und andere Probleme zu finden.

2) Matching mit einer Firmendatenbank

Um inaktive und insolvente Firmen identifizieren zu können, wird der zu säubernde Firmendatenbestand mit einer Firmendatenbank gematcht.

Weiterhin können darauf basierend auf Wunsch fehlende Firmeninformationen wie z. B. Telefonnummer, Website, Branche oder Anzahl der Mitarbeiter angereichert werden. Somit wird z. B. für Zielgruppenselektionen im Marketing eine perfekte Datengrundlage geschaffen.

3) Datenbereinigung / Data Cleaning

Dies ist das Herzstück des Bereinigungsprozesses, wenn Datenfehler korrigiert und inkonsistente, doppelte und redundante Daten behoben werden.

4) Überprüfung

Nachdem der Bereinigungsschritt abgeschlossen ist, werden die Daten auf ihre Sauberkeit, Vollständigkeit und Korrektheit geprüft, sodass die internen Datenqualitätsregeln und -standards erfüllt werden.

5) Reporting

Die Ergebnisse der Datenbereinigungsarbeit sollten dann an IT- und Geschäftsleiter gemeldet werden, um Trends und Fortschritte bei der Datenqualität hervorzuheben. Der Bericht könnte die Anzahl der gefundenen und behobenen Probleme sowie aktualisierte Metriken zum Qualitätsniveau der Daten enthalten.

6) Regelmäßige Updates

Fehlerhafte Dateneingaben kann man teilweise mit einer entsprechenden Konfiguration der verwendeten Software-Lösungen und dort integrierter Plausibilitätsprüfungen begegnen. Jedoch kann es dennoch zu menschlichen Fehlern kommen.

Darüber hinaus ändern sich Firmenkontaktdaten und Ansprechpartner unaufhörlich.

Allein in Deutschland werden pro Jahr rund 700.000 Firmen neu gegründet, 500.000 Gewerbe werden abgemeldet und rund 13.000 gehen in die Insolvenz (Quelle: https://www.destatis.de/DE/Themen/Branchen-Unternehmen/Unternehmen/Gewerbemeldungen-Insolvenzen/_inhalt.html).

Daher empfiehlt es sich zumindest einmal pro Quartal den eigenen Datenbestand auf einen aktuellen und korrekten Stand zu bringen.

7) Integration in die eigene Systemlandschaft

Im Idealfall wird ein Data Cleaning Service an das führende IT-System (oftmals ein CRM-System) angebunden.

CRM- und ERP-Systeme verfügen zwar in der Regel im Standard über eine eigene Dublettenprüfung. Jedoch ist diese nur sehr einfach realisiert und kann hinsichtlich der Erkennungsquote nicht mit professionellen Data Cleaning-Lösungen mithalten. Somit kann beste Datenqualität zu jedem Zeitpunkt gewährleistet werden.

Menü