In der Übersicht
Ein Data Lakehouse verbindet die Verwaltung und die Transaktionen von Data-Warehouses mit der Flexibilität und Kosteneffizienz von Data-Lakes. Flexibilität und Kosteneffizienz ermöglicht Business Intelligence und maschinelles Lernen auf einer einzigen offenen Datenplattform (Armbrust, 2021). Dieser Ansatz entspricht der Idee des derzeit sehr populären „Data Mesh“ (Dehghani, 2019), bei dem dezentrale Teams die Verantwortung für spezifische Datenprodukte übernehmen, anstatt sich auf ein zentrales Datenteam zu verlassen.
Die dezentrale Architektur eines Data Lakehouse erhöht die Bedeutung einer effektiven Daten-Governance. Allerdings verarbeiten Data Lakes Metadaten (die für eine Data-Governance erforderlich sind) langsam im Vergleich zu Datenbanken. Die Architektur der Data-Governance-Schicht muss daher die begrenzte Abfrageleistung kompensieren (Jain, 2023) und auf ein effizientes Metadatenmanagement ausgelegt sein.
Unser Ziel ist es, zu untersuchen wie eine so Data-Governance-Schicht aufgebaut werden kann.