Databricks Lakehouse Plattform

Die primäre Herausforderung vor der wir heute im Umgang mit Daten stehen ist nicht länger die schiere Menge oder unterschiedliche Datenarten. Es geht heute vor allem darum mit Komplexität und Geschwindigkeit umzugehen. Databricks bietet dafür viele hilfreiche Konzepte "out of the box". DataBricks ist eine Big-Data-Verarbeitungsplattform, die von den Schöpfern von Apache Spark geschaffen wurde. Apache Spark ist eine der neuesten Open-Source Technologien für Mehrzweck-Cluster-Computing mit einer einheitliche Analyse-Engine für die Verarbeitung von Big Data mit integrierten Modulen für Streaming, SQL, maschinelles Lernen und Graphenverarbeitung. Die Plattform verfolgt einen Open Source Ansatz und nutzt offene Standards um ein Maximum an Flexibilität zu bieten. Dadurch gibt es weniger Abhängigkeiten und kein Vendor Lock-in. Mit dem Unity Catalog verfügt die Plattform über einen mächtigen Datenkatalog. Delta Sharing ermöglicht die sichere gemeinsame Nutzung von Daten, selbst über Unternehmens- und Hyperscaler-Plattformen hinweg.
Wir empfehlen Databricks, weil es helfen kann dramatisch einfachere Datenarchitekturen zu schaffen. Es vereint die Vorzüge eines Datawarehouse mit den Fähigkeiten eines Data Lakes auf einer einzigen offenen, einheitlichen Plattform als so genanntes Lakehouse. Aufwändig zu pflegende Lambda Architekturen können so bspw. durch die wesentlich einfachere Delta-Architektur ersetzt werden.
Die Databricks Lakehouse-Plattform wird für alle großen Hyperscaler angeboten: Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP) und Alibaba.


Das beste aus zwei Welten

Data Lakes und Data Warehouses waren früher völlig verschieden. Data Warehouses hielten tendenziell weniger Daten, aber diese waren besser kuratiert, mit einem vorbestimmten Schema, das beim Schreiben der Daten festgelegt wurde (Schema on write). Da sie in erster Linie für schnelle Analysen konzipiert waren, verwendeten Data Warehouses den schnellstmöglichen Speicher und so viel RAM wie möglich. Data Lakes enthielten sehr große Datenmengen und befanden sich in der Regel auf Apache Hadoop-Clustern von Standardcomputern, die HDFS (Hadoop Distributed File System) und Open-Source-Analyse-Frameworks verwendeten. Ursprünglich bedeutete Analytik MapReduce, aber Apache Spark brachte eine enorme Verbesserung der Verarbeitungsgeschwindigkeit. Es unterstützte auch Stream Processing und maschinelles Lernen sowie die Analyse von historischen Daten. In Data Lakes wurde den Daten kein Schema aufgezwungen, bis sie verwendet wurden - ein Prozess, der als Schema on Read bekannt ist.

Databricks ist eine Lakehouse Plattform, die die besten Elemente von Data Lakes und Data Warehouses kombiniert. Statt des parallelen Betriebs von  Data Warehouse und Data Lake wird eine Vereinfachung der Datenplattfom durch eine zentrale Plattform erreicht. Dadurch werden die Zuverlässigkeit, starke Governance und Leistungen von Data Warehouses mit der Offenheit, Flexibilität und Unterstützung für Machine Learning von Data Lakes verbunden. Das Ziel: Datensilos beseitigen. Das ermöglicht die Aufhebung der Trennung zwischen Analytics (DW) und Data Science (DL), vollen Zugriff über die gewohnten Tools (SQL für Analysten und Python/R für Data Scientists), eine gemeinsame Datenbasis und vereinfachte Zusammenarbeit.

Databricks Lakehouse

Reine Cloud Data Warehouses (wie bspw. Snowflake oder SAP DWC) werden mit zunehmender Datengröße in der Produktion untragbar teuer. Die Databricks Photon SQL Engine übertrifft im 100 Terabyte TPC-DS Benchmark, dem Standard-Benchmark für Data Warehousing, die Konkurrenz um das 2,2-fache. In der Preisleistung schneidet Databricks ungefähr 12 Mal besser ab, als das teuerste und ungefähr 2,5 Mal besser als das günstigste getestete Cloud Data Warehouse. In Untersuchungen des Barcelona Supercomputing Center, das regelmäßig TPC-DS Benchmarks für beliebte Data Warehouses durchführt schnitt Databricks 12-mal besser in Bezug auf die Preisleistung als Snowflake ab und war 2,7-mal schneller


Überragend für Streaming

DataBricks ist eine Big-Data-Verarbeitungsplattform, die von den Schöpfern von Apache Spark geschaffen wurde. Apache Spark ist eine der neuesten Open-Source Technologien für Mehrzweck-Cluster-Computing mit einer einheitliche Analyse-Engine für die Verarbeitung von Big Data mit integrierten Modulen für Streaming, SQL, maschinelles Lernen und Graphenverarbeitung. Apache Spark Streaming ist ein skalierbares, fehlertolerantes Streaming-Verarbeitungssystem, das sowohl Batch- als auch Streaming-Arbeitslasten nativ unterstützt. Spark Streaming ist eine Erweiterung der Spark-Kern-API, die es Dateningenieuren und Datenwissenschaftlern ermöglicht, Echtzeitdaten aus verschiedenen Quellen zu verarbeiten, einschließlich Kafka, Flume und Amazon Kinesis. Diese verarbeiteten Daten können an Dateisysteme, Datenbanken und Live-Dashboards weitergeleitet werden. Spark Streaming unterscheidet sich von anderen Systemen, die entweder über eine Verarbeitungs-Engine verfügen, die nur für Streaming ausgelegt ist, oder über ähnliche Batch- und Streaming-APIs verfügen, aber intern zu unterschiedlichen Engines kompiliert werden. Die einzige Ausführungsengine von Spark und das einheitliche Programmiermodell für Batch und Streaming führen zu einigen einzigartigen Vorteilen gegenüber anderen traditionellen Streaming-Systemen.

Die Lambda-Architektur ist eine beliebte Methode um Datensätze von einem Batch-System und einem Streaming-System parallel zu verarbeiten. Um in Abfragen eine vollständige Antwort zu liefern werden während der Abfragezeit die Daten aus beiden Quellen kombiniert. Der Preis für die so erzielte Echtzeitverarbeitung ist der Entwicklungs- und Betriebsaufwand für die Verwaltung zweier unterschiedlicher Systeme. Das Databricks  Lakehosue eröffnet durch Delta Lake die Möglichkeit nur ein einfaches, kontinuierliches Datenflussmodell einzusetzen. In der so genannten Delta-Architektur werden die Daten verarbeitet, sobald sie ankommen.

Dank Structured Streaming können Sie dieselben Vorgänge, die Sie im Batch-Modus mit den strukturierten APIs von Spark durchführen, in einem Streaming-Verfahren ausführen. Dies kann die Latenzzeit verringern und eine inkrementelle Verarbeitung ermöglichen. Das Beste an Structured Streaming ist, dass es Ihnen ermöglicht, schnell und ohne Codeänderungen einen Mehrwert aus Streaming-Systemen zu ziehen. Außerdem ist es einfach, darüber nachzudenken, denn Sie können Ihren Batch-Job als Prototyp schreiben und ihn dann in einen Streaming-Job umwandeln. All dies funktioniert durch die inkrementelle Verarbeitung der Daten.


Cloud-übergreifender Datenkatalog

Der Unity Datenkatalog von Databricks ermöglicht es Anwendern Datenbestände Cloud-übergreifend an einem zentralen Ort zu entdecken, zu prüfen und zu verwalten. Das heißt, der Unity Catalog arbeitet mit Ihren bestehenden Katalogen, Daten und Speichersystemen zusammen, sodass Sie Ihre bestehenden Investitionen nutzen und ein zukunftssicheres Governance-Modell aufbauen können. So kann das Databricks Lakehouse tatsächlich zu einer einzigen "Quelle der Wahrheit" für Ihr Unternehmen werden.

Informationen über Datenherkunft / -ursprung, Rollenbasierte Sicherheitsrichtlinien, Tags auf Tabellen- oder Spaltenebene und zentrale Audit-Funktionen erleichtern den Datenverantwortlichen die Verwaltung und Sicherung des Datenzugriffs, um die Anforderungen an Compliance und Datenschutz zu erfüllen, direkt im Lakehouse.

Der Unity Datenkatalog von Databricks bietet das erste zentralisierte Sicherheitsmodell für Cloud-übergreifende Data Lakes - basierend auf dem offenen ANSI SQL-Standard. Es ermöglicht granulares Zugriffsmanagement über Clouds hinweg für Workloads, Tabellen, Dateien, Zeilen und Spalten. So können Sie beispielsweise vorhandene Daten in Apache Hive Metastores oder Amazon S3 einbinden und Richtlinien über fortschrittliche Sicherheitslösungen wie Immuta oder Privacera verwalten, während Sie ANSI SQL DCL zur Verwaltung von Berechtigungen nutzen - alles an einem Ort.


Kollaboratives Machine Learning (ML) für den gesamten ML-Lebenszyklus

DataBricks wurde ursprünglich speziell für die Anforderungen von Datenwissenschaftlern entwickelt. Es ging darum eine optimale Umgebung zu schaffen um den Bereich Data Science mit dem dahinter stehenden Geschäftsmodell mit dem Lebenszyklus des maschinellen Lernens zu verbinden. So ermöglichen die integrierten Kollaborations-Features eine einfache und damit viel bessere Zusammenarbeit von Data Engineers, Data Scientists und Analytik-Experten. Innovationen können in der Folge schneller und zu geringeren Kosten entwickelt werden. Heute verfügt Databricks auch über spannende Funktionen für andere Anwendergruppen, wie beispielsweise Serverless SQL.

Machine Learning Lakehouse Architecture
Databricks Machine Learning basiert auf einer offenen Lakehouse-Architektur und ermöglicht es ML-Teams, Daten aufzubereiten und zu verarbeiten, die teamübergreifende Zusammenarbeit zu optimieren und den gesamten ML-Lebenszyklus vom Experiment bis zur Produktion zu standardisieren.
Da Databricks ML auf einem offenen Lakehouse-Fundament mit Delta Lake aufbaut, können Ihre Machine-Learning-Teams auf jede Art von Daten in beliebigem Umfang zugreifen, sie untersuchen und aufbereiten. Sie können Funktionen im Self-Service-Verfahren in Produktionspipelines umwandeln, ohne auf die Unterstützung von Data Engineering angewiesen zu sein.

Key Feature

  • Collaborative Notebooks
    Gemeinsame und interaktive Notebooks und erweiterte Datei-Unterstützung ermöglichen es Data Scientists-Teams, komplexe Data-Science-Projekte über den gesamten Lebenszyklus hinweg effektiver zu organisieren, gemeinsam zu nutzen und zu verwalten. APIs und Job Scheduler ermöglichen es Data-Engineering-Teams, komplexe Pipelines schnell zu automatisieren, während Business-Analysten über interaktive Dashboards direkt auf die Ergebnisse zugreifen können.
  • Machine Learning Runtime

    Die Machine Learning Runtime (MLR) bietet Datenwissenschaftlern skalierbare Cluster, die beliebte Frameworks wie TensorFlow, Keras, PyTorch, MLflow, Horovod, GraphFrames, scikit-learn, XGboost, numpy, MLeap und Pandas "out of the box" enthalten. Die integrierte AutoML und Optimierungen sorgen für unübertroffene Leistung.

  • Feature Store
    Datenteams können neue Features erstellen, bestehende Features untersuchen und wiederverwenden, Features in Online-Speichern mit geringer Latenz veröffentlichen, Trainingsdatensätze erstellen und Feature-Werte für die Stapelverarbeitung abrufen.

  • AutoML
    Mit Databricks AutoML können Sie schnell Baseline-Modelle und Notebooks erstellen. ML-Experten können so ihre Arbeitsabläufe beschleunigen, indem sie das übliche Trial-and-Error-Verfahren schnell hinter sich lassen und sich auf fachliche Anpassungen konzentrieren. Auch weniger fortgeschrittene Datenwissenschaftler können mit Hilfe des Low-Code-Ansatz schnell brauchbare Ergebnisse erzielen.
  • Managed MLFlow
    Managed MLflow baut auf MLflow auf, einer Open-Source-Plattform, die von Databricks entwickelt wurde, um den gesamten Lebenszyklus des maschinellen Lernens mit der Zuverlässigkeit, Sicherheit und Skalierbarkeit eines Unternehmens zu verwalten.
  • Model Serving
    Ein MLflow-Modell ist ein Standardformat für die Bereitstellung von Modellen für maschinelles Lernen, die in einer Vielzahl von nachgelagerten Tools verwendet werden können, z. B. für die Echtzeitbereitstellung über eine REST-API oder die Verarbeitung von Batch-Daten auf Apache Spark. Das Format definiert eine Konvention, mit der Sie ein Modell in verschiedenen " Varianten " speichern können, die von verschiedenen nachgeschalteten Tools verstanden werden können.
  • Model Registry
    MLflow Model Registry ist ein kollaborativer Hub, in dem Teams Machine Learning Modelle austauschen können: Von der Experimentierphase über Testings bis zur Produktion. Dadurch werden Machine Learning Modelle auffindbar gemacht und durch kollaborative Funktionen gemeinsam verbessert werden.
  • Repos
    Git-Workflows und -Vorgänge in Databricks helfen bei der Integration von Datenprojekten in größere Softwareabläufe in Ihrem Unternehmen. Mit der Repos REST API können Sie Datenprojekte in CI/CD-Pipelines integrieren. 

Delta Lake Logo

Delta Lake ist ein von Databricks unterstütztes Open-Source-Projekt, das den Aufbau einer Lakehouse-Architektur auf bestehenden Speichersystemen wie S3, ADLS, GCS und HDFS ermöglicht.

Highlights

  • ACID-Transaktionen
    In Data Lakes gibt es in der Regel mehrere Datenpipelines, die gleichzeitig Daten lesen und schreiben, und da es keine Transaktionen gibt, müssen Dateningenieure einen langwierigen Prozess durchlaufen, um die Datenintegrität sicherzustellen. Delta Lake bringt ACID-Transaktionen in Ihre Data Lakes. Dadurch bietet Delta Lake das Mehr an Zuverlässigkeit, das herkömmlichen Data Lakes fehlt. So können Sie aussagekräftige Erkenntnisse aus Ihren Daten unternehmensweit skalieren, Analysen und weitere Datenprojekte direkt für Ihren Data Lake ausführen und die Time-to-Insight um den Faktor 50 beschleunigen.

  • Skalierbare Metadaten-Verarbeitung
    Bei Big Data können sogar die Metadaten selbst "Big Data" sein. Delta Lake behandelt Metadaten genauso wie Daten und nutzt die verteilte Verarbeitungsleistung von Spark, um alle Metadaten zu verarbeiten. Dadurch kann Delta Lake problemlos Tabellen im Petabyte-Bereich mit Milliarden von Partitionen und Dateien verarbeiten.

  • Zeitreise (Datenversionierung)
    Delta Lake bietet Snapshots von Daten, die es Entwicklern ermöglichen, auf frühere Datenversionen zuzugreifen und diese für Audits, Rollbacks oder zur Reproduktion von Experimenten wiederherzustellen. 

  • Offenes Format
    Alle Daten in Delta Lake werden im Apache Parquet-Format gespeichert, so dass Delta Lake die effizienten Komprimierungs- und Kodierungsverfahren nutzen kann, die in Parquet enthalten sind.

  • Einheitliche Quelle und Senke für Batch und Streaming
    Eine Tabelle in Delta Lake ist sowohl eine Batch-Tabelle, als auch eine Streaming-Quelle und -Senke. Streaming Data Ingest, Batch Historical Backfill und interaktive Abfragen funktionieren alle "out of the box".

  • Schema-Erzwingen
    Delta Lake bietet die Möglichkeit, Ihr Schema zu spezifizieren und es durchzusetzen. Dadurch wird sichergestellt, dass die Datentypen korrekt sind und die erforderlichen Spalten vorhanden sind, um zu verhindern, dass fehlerhafte Daten zu Datenbeschädigungen führen. 

  • Schema-Entwicklung
    Große Daten verändern sich ständig. Delta Lake ermöglicht es Ihnen, Änderungen an einem Tabellenschema vorzunehmen, die automatisch angewendet werden können, ohne dass umständliche DDL erforderlich sind. 

  • Audit-Verlauf
    Das Delta Lake-Transaktionsprotokoll zeichnet Details zu jeder an den Daten vorgenommenen Änderung auf und bietet so einen vollständigen Prüfpfad für die Änderungen.

  • Aktualisierungen und Löschungen
    Delta Lake unterstützt Scala-, Java-, Python- und SQL-APIs zum Zusammenführen, Aktualisieren und Löschen von Datensätzen. Dies ermöglicht Ihnen die einfache Einhaltung von GDPR und CCPA und vereinfacht zudem Anwendungsfälle wie die Erfassung von Änderungsdaten. Weitere Informationen finden Sie unter Ankündigung des Delta Lake 0.3.0-Release und Einfache, zuverlässige Upserts und Deletes auf Delta Lake-Tabellen mit Python-APIs, die Codeausschnitte für DML-Befehle zum Zusammenführen, Aktualisieren und Löschen enthalten.

  • 100%ige Kompatibilität mit Apache Spark API
    Entwickler können Delta Lake mit ihren bestehenden Datenpipelines mit minimalen Änderungen verwenden, da es vollständig mit Spark, der häufig verwendeten Big-Data-Verarbeitungs-Engine, kompatibel ist.

  • Delta Sharing
    Delta Sharing ist das branchenweit erste offene Protokoll für die sichere gemeinsame Nutzung von Daten, das die gemeinsame Nutzung von Daten mit anderen Unternehmen vereinfacht, unabhängig davon, welche Hyperscaler-Plattform(en) diese verwenden. Mit Delta Sharing können Sie Live-Daten sicher und ohne Datenduplikate über Clouds, Plattformen und On-Premise-Anwendungen hinweg austauschen. Es ist nicht mehr nötig, Datensätze per E-Mail zu verschicken oder sie auf separaten Servern abzulegen. Ein Delta-Sharing-Server kann mit Clients in allen wichtigen Datentools und Programmiersprachen interagieren.


Five1 kann Sie auf ihrem Weg zur Lakehouse Plattform unterstützen. Egal ob es um das Kennenlernen der Möglichkeiten, der Realisierung eines ersten Proof of Concept, oder der Entwicklung einer passgenauen Data Analytics Plattform geht sind wir der richtige Partner. Von der Analyse des Status Quo, über die Sicherung ihrer getätigten Investitionen, der Evaluierung neuer Möglichkeiten unter Berücksichtigung ihrer Datenkultur und der Entwicklung einer passgenauen Datenstrategie begleiten wir Sie von Anfang bis zum Erfolg ihrer Initiative. 

Lassen Sie uns sprechen

Neuigkeiten von Databricks