So beschleunigen Sie ETL-Prozesse durch den Einsatz von Pandas UDFs in PySpark auf EMR Clustern in der Amazon Cloud
Herausforderung
ETL-Prozesse (Extraktion, Transformation, Laden) sind essentiell für den Betrieb eines Data-Warehouses. Um so wichtiger ist es, dass diese Prozesse zuverlässig und schnell laufen. Dabei kommen ggf. komplexe mathematische Funktionen zum Einsatz, um die benötigten Transformationen durchzuführen. Sowohl das Umsetzen als auch das schnelle Ausführen dieser Funktionen kann zu einer Herausforderung werden. Im Falle einer unserer Kunden war der benötigte Zeitraum bis zur möglichen Ausführung des Prozesses so groß, dass ein zeitnahes Reporting auf der Grundlage aktueller Daten nicht möglich schien.
Projektbeschreibung - wie hat Five1 dem Kunden weitergeholfen
User Defined Functions (UDFs) ermöglichen es, auch sehr komplexe Funktionen auf die Einträge von Tabellen (in Spark: Dataframes) anzuwenden. Gewöhnliche Spark UDFs können sehr langsam sein und ein Bottleneck in ETL Prozessen darstellen.
Eine Möglichkeit, die Performance um das 3- bis 100-fache zu verbessern, ist ein Umstieg von Spark auf Pandas UDFs. Auf dieser Seite wird dies weiter beleuchtet.
Pandas UDFs führen die Operationen und Berechnungen nicht zeilen- sondern spaltenweise durch, wodurch die Operationen vektorisiert und dadurch beschleunigt werden können. Um von Spark auf Pandas UDFs zu wechseln, muss das pandas package verwendet, aber auch die Logik der UDFs angepasst werden!
Technische Highlights:
-
ETL Jobs
-
PySpark
-
Pandas UDFs
-
Laufzeitverbesserung
Lösungen und Ergebnis
Five1 konnte die Funktionen durch die Verwendung von UDFs für die Transformationen kompakt und verständlich umsetzen. Durch einen Umstieg von Spark auf Pandas UDFs konnte zudem die Laufzeit des ETL-Prozesses signifikant verbessert werden, wodurch ein Reporting auf der Grundlage aktuellster Daten ermöglicht werden konnte.
Tags
- Datenstrategie & Data Driven Enterprise (30)
- Data Science & Advanced Analytics (29)
- Cloud Architecture & Infrastructure (24)
- SAP Technologie (14)
- Branchenlösungen & Geschäftsprozesse (6)
- Cloud Technologie (4)
- Planung & Forecasting (4)
- New Work (3)
- Business Intelligence & Visualization (1)
- Five1 Software Solutions (1)
Ähnliche Beiträge:
SAP Datasphere gewinnt an Bedeutung, besonders da SAP das BW/4HANA bis 2040 nicht mehr unterstützt. Trotz klarer Vorteile sind viele Unternehmen zögerlich. Dieser Beitrag zeigt einen klaren Fahrplan für einen risikoarmen Einstieg in die Datasphere angesichts der Unsicherheiten bei der Datenintegration.
Erfahren Sie mehr über die 6 häufigsten Irrtümer beim Aufbau eines Data Lakes. Unser Artikel beleuchtet die Organisation unstrukturierter Daten, die Bedeutung von Metadaten und die kontinuierliche Entwicklung der Datenplattform. Entdecken Sie klare Standards, Automatisierung und Teamkommunikation für einen erfolgreichen Data Lake. Erfahren Sie mehr in unserem E-Book 'Lakehouse Automation'.