So beschleunigen Sie ETL-Prozesse durch den Einsatz von Pandas UDFs in PySpark auf EMR Clustern in der Amazon Cloud
Herausforderung
ETL-Prozesse (Extraktion, Transformation, Laden) sind essentiell für den Betrieb eines Data-Warehouses. Um so wichtiger ist es, dass diese Prozesse zuverlässig und schnell laufen. Dabei kommen ggf. komplexe mathematische Funktionen zum Einsatz, um die benötigten Transformationen durchzuführen. Sowohl das Umsetzen als auch das schnelle Ausführen dieser Funktionen kann zu einer Herausforderung werden. Im Falle einer unserer Kunden war der benötigte Zeitraum bis zur möglichen Ausführung des Prozesses so groß, dass ein zeitnahes Reporting auf der Grundlage aktueller Daten nicht möglich schien.
Projektbeschreibung - wie hat Five1 dem Kunden weitergeholfen
User Defined Functions (UDFs) ermöglichen es, auch sehr komplexe Funktionen auf die Einträge von Tabellen (in Spark: Dataframes) anzuwenden. Gewöhnliche Spark UDFs können sehr langsam sein und ein Bottleneck in ETL Prozessen darstellen.
Eine Möglichkeit, die Performance um das 3- bis 100-fache zu verbessern, ist ein Umstieg von Spark auf Pandas UDFs. Auf dieser Seite wird dies weiter beleuchtet.
Pandas UDFs führen die Operationen und Berechnungen nicht zeilen- sondern spaltenweise durch, wodurch die Operationen vektorisiert und dadurch beschleunigt werden können. Um von Spark auf Pandas UDFs zu wechseln, muss das pandas package verwendet, aber auch die Logik der UDFs angepasst werden!
Technische Highlights:
-
ETL Jobs
-
PySpark
-
Pandas UDFs
-
Laufzeitverbesserung
Lösungen und Ergebnis
Five1 konnte die Funktionen durch die Verwendung von UDFs für die Transformationen kompakt und verständlich umsetzen. Durch einen Umstieg von Spark auf Pandas UDFs konnte zudem die Laufzeit des ETL-Prozesses signifikant verbessert werden, wodurch ein Reporting auf der Grundlage aktuellster Daten ermöglicht werden konnte.
Tags
- Data Science & Advanced Analytics (27)
- Datenstrategie & Data Driven Enterprise (26)
- Cloud Architecture & Infrastructure (24)
- SAP Technologie (15)
- Branchenlösungen & Geschäftsprozesse (6)
- Planung & Forecasting (4)
- Cloud Technologie (3)
- Business Intelligence & Visualization (1)
- Five1 Software Solutions (1)
Ähnliche Beiträge:

Die Business Data Cloud (BDC) wurde offiziell vorgestellt und markiert eine bedeutende Veränderung in der Art und Weise, wie Unternehmen ihre SAP-Daten verwalten, analysieren und mit externen Quellen verknüpfen. Doch was bedeutet das für Unternehmen, die heute auf SAP BW oder Datasphere setzen? Welche Rolle spielt Databricks? Und wie verändert sich die SAP-Datenstrategie durch diese neue Plattform?

SAP Datasphere gewinnt an Bedeutung, besonders da SAP das BW/4HANA bis 2040 nicht mehr unterstützt. Trotz klarer Vorteile sind viele Unternehmen zögerlich. Dieser Beitrag zeigt einen klaren Fahrplan für einen risikoarmen Einstieg in die Datasphere angesichts der Unsicherheiten bei der Datenintegration.