Data Lake – How NOT to do it

Die 6 häufigsten Irrtümer zum Aufbau eines Data Lakes

Blog Profilbild Solution Consultant Samantha Vincentini

Daten als Ressource gewinnen immer mehr an Bedeutung. Meist ist der erste Schritt hin zum datengetriebenen Unternehmen das Sammeln der Daten in einem Data Lake. Doch Daten sammeln allein reicht nicht, man muss auch wissen wie – sonst wird aus einem Data Lake schnell ein Data Swamp. Im Folgenden Beitrag wollen wir auf typische und häufige Fehler im Zusammenhang mit dem Aufbau von Data Lakes eingehen.

 

In einem Data Lake werden Daten in ihrem ursprünglichen Dateiformat gesammelt und gespeichert. Dabei ist es zunächst egal, ob es sich um strukturierte, semistrukturierte oder unstrukturierte Daten handelt. Eine weitere Eigenschaft des Data Lakes ist seine Skalierbarkeit, da er mit dem Datenumfang mitwächst.

Um die Skalierbarkeit jedoch über den reinen Speicherbedarf hinaus erfüllen zu können, gilt es bestimmte Fehler beim Aufbau des Data Lakes zu vermeiden. Wir haben eine Liste mit den sechs gängigsten Irrtümern zum Thema Data Lake zusammengestellt:

Irrtum 1: Unstrukturierte Daten sind das gleiche wie unorganisierte Daten

Auch unstrukturierte Daten müssen nach einem einheitlichen Standard organisiert abgelegt werden. Dazu ist es nötig, bereits zu Beginn des Projekts die Datenarchitektur sorgfältig zu planen und Standards festzulegen. Diese Standards reichen von Namenskonventionen bis Code-Reviews und umfassen den Aufbau von Datenpipelines und Dokumentationen.

Irrtum 2: Ausnahmeregeln sind auch Regeln

Workarounds, um Daten oder Features unter Zeitdruck schneller bereitstellen zu können, führen langfristig zu einem Flickenteppich an Lösungen. Dadurch steigt die Komplexität und sowohl die Nutzung als auch die Wartung des Data Lakes werden erschwert. Deshalb ist es wichtig, sich immer an die zuvor festgelegten Standards zu halten, egal, wie sehr die Zeit drängt.

Irrtum 3: Das geht schnell von der Hand

Das manuelle Durchführen von wiederkehrenden Prozessen, die sich automatisieren lassen, ist ineffizient und fehleranfällig. Auch den routiniertesten Personen können Fehler unterlaufen, daher ist es wichtig wo immer möglich auf Automatisierung zurückzugreifen. Das gilt zum Beispiel für die Datenintegration, die Datenbereinigung, das Monitoring und den Release-Prozess in die produktive Umgebung.

Irrtum 4: Metadaten sind nur Daten zweiter Klasse

Metadaten spielen eine zentrale Rolle im Aufbau eines Data Lakes. Mit Hilfe von Metadaten können robuste Standardprozesse definiert werden, sodass auf Änderungen an Datenquellen, reagiert werden kann und die Stabilität auch bei volatilen Quellsystemen bestehen bleibt.

Irrtum 5: Es reicht, wenn ICH Bescheid weiß

Mangelnde Kommunikation im Team führt im schlimmsten Fall zum Scheitern des Projekts. Auch zuvor festgelegte Standards können im Verlauf einer agilen Arbeitsweise angepasst werden. Diese Änderungen müssen an alle Betroffenen kommuniziert werden, da sonst veraltete Lösungsstrategien weiterhin angewandt werden. Auch das Einbauen komplizierter Businesslogik, über die nur eine Person ausreichend informiert ist, macht den Data Lake unnötig komplex. Spätestens beim Ausfall der Person, die das Wissen gehortet hat, treten Probleme bei der Wartung und dem Betrieb auf. Deswegen ist neben dem regelmäßigen Kommunizieren der Standards und der Überprüfung ihrer Einhaltung auch eine gut zugängliche Dokumentation der Prozesse unerlässlich. Eine Datenplattform kann nie nur eine technische Lösung sein. Bei ihrem Aufbau muss immer auch die organisatorische/kommunikative Ebene mitgedacht werden.

Irrtum 6: Wenn ich die Datenplattform aufgebaut habe, bin ich fertig

Sind die Hauptkomponenten eines Data Lakes erstmal aufgebaut; Objekt-Speicher, Rechencluster, Datenpipelines, entsteht schnell der Eindruck, von jetzt an sollten alle Investitionen nur noch in das Umsetzen von Use Cases bzw. Datenprodukte gesteckt werden. Dabei gerät schnell aus dem Auge, dass sich mit jedem weiteren Use Cases auch die Anforderungen an die Plattform verändern können. Wer sich nicht die Zeit nimmt, um die Datenplattform weiterzuentwickeln, fängt schnell an, sich auf partikuläre Lösungen, ineffiziente Prozesse und Workarounds einzulassen. Es wird von Standards abgewichen oder es werden erst gar keine neuen Standards eingeführt.

Der Aufbau eines Data Lakes ist ein essenzieller Schritt in Richtung eines datengetriebenen Unternehmens. Jedoch birgt dieser Prozess verschiedene Herausforderungen und Irrtümer, die vermieden werden sollten. Die sechs beschriebenen Irrtümer verdeutlichen, wie wichtig es ist, von Anfang an auf klare Standards, Automatisierung, Kommunikation im Team und die kontinuierliche Weiterentwicklung der Datenplattform zu setzen. Ein erfolgreich aufgebauter und gepflegter Data Lake ermöglicht nicht nur effiziente und fehlerfreie Prozesse, sondern auch eine zukunftsfähige Grundlage für die Umsetzung verschiedener Use Cases und Datenprodukte." 

Wie kann ein Lakehouse Ihr Unternehmen weiterbringen? Sprechen Sie uns gerne an, um herauszufinden, wie wir Ihnen helfen können, die besten Ergebnisse zu erzielen. 

 

Lassen Sie uns sprechen

 

Veröffentlich am 8.1.2024

Thema: big data, AWS, Data Science, Datenplattform, Data Lake