techcamp Hamburg Logo

Let’s talk about tech – IRL

Klubhaus St. Pauli und Schmidt Theater in Hamburg

Event empfehlen auf:

#tchh22 | Data Lakes: Architekturen und Data Discovery Strategien

Talk | Data | 45 min | Deutsch

DO | 10:00 | Alte Liebe

Die Rolle, die Daten in der heutigen Gesellschaft einnehmen, ist von unbestrittener Bedeutung: Sie beeinflussen unser Leben tiefgreifend und durchdringen die unterschiedlichsten Aspekte. Waren es in der Vergangenheit vor allem Versicherungen und Finanzdienstleister, die sich auf die Datenanalyse mit Hilfe von Data-Mining-Verfahren konzentrierten, so profitieren heute eine Vielzahl von Bereichen, vom Gesundheitswesen bis zur Landwirtschaft.

Die Bedeutung der Verfügbarkeit großer Datenmengen wurde seit den Anfängen dieser Entwicklung erkannt und thematisiert und im Laufe der 2000er Jahre hat sich der wissenschaftliche Diskurs in dieser Hinsicht immer deutlicher artikuliert.

Es wurde eine neue Terminologie eingeführt und man begann, von Big Data zu sprechen, d. h. von Datensätzen, die aufgrund ihres Umfangs und ihrer unterschiedlichen Strukturen nicht ohne weiteres mit etablierten Tools wie relationalen Datenbanken verwaltet werden können. In jenen Jahren war es Doug Laney von Gartner, der die Hauptprobleme von Big Data zusammenfasste, welche er auf die, seiner Meinung nach, charakteristischen Merkmale der Datenmengen zurückführte: Volume, Variety, Velocity (Volumen, Vielfalt und Geschwindigkeit).

Die 5 V’s stellen eine neue Herausforderung für traditionelle Datenverwaltungstechnologien dar, insbesondere für relationale Datenbanken. Aus diesem Grund wurden Forschungsarbeiten durchgeführt, die nützliche Strategien zur Lösung der durch Big Data aufgeworfenen Probleme ermitteln sollten.
Eine Antwort auf die Probleme, die Big Data mit sich bringt, sind Data Lakes. In einem Data Lake werden alle Daten zunächst in unverarbeiteter Form in einem Cluster gesichert, das bei Bedarf leicht horizontal und vertikal skaliert werden kann, um auch große und variable Informationsmengen darin speichern zu können. Die Daten werden also trotz unterschiedlicher Formate und Strukturen im selben System gespeichert und erst bei der Verwendung in das gewünschte Schema transformiert. Dies bietet große Vorteile, z.B. ist es möglich, explorative Analysen durchzuführen, ohne die Originaldaten zu verändern. Darüber hinaus können die Daten in verschiedenen Formaten von einer großen und vielfältigen Gemeinschaft von Nutzenden abgerufen werden, sogar mit Hilfe einer gemeinsamen Schnittstelle.
Nichtsdestotrotz, auch wenn Data Lakes als die technologische Lösung der Wahl für die Speicherung und Verarbeitung von Big Data vorgeschlagen werden, werfen sie viele Fragen auf, von denen einige noch offen sind: Anhand welcher Kriterien kann die Qualität und Zuverlässigkeit der Daten festgestellt werden, und wie kann ihr Schutz und ihre Sicherheit in Übereinstimmung mit den geltenden gesetzlichen Bestimmungen gewährleistet werden? Wie können wir außerdem die Bereinigung, Integration und Verwaltung von Formen der Katalogisierung, die sich als notwendig erweisen, am besten organisieren, um zu verhindern, dass „Datenseen“ zu unerforschten und unbrauchbaren „Datensümpfen“ (Data Swamps) werden?

In diesem Zusammenhang werden in diesem Beitrag die wichtigsten Data Lake Architekturen sowie die Formen der Data Discovery und Integration von in dem Data Lake enthaltene Daten vorgestellt, die in den letzten Jahren von Forschung und Industrie vorgeschlagen wurden.

 

Christian Del Monte

adesso

Christian Del Monte ist Solutions- und Software-Architekt mit langjähriger Erfahrung.

Im Zuge seiner vielfältigen Projekte im B2B- und B2C-Bereich hat er sich mit verschiedenen Software-Architekturen auseinandergesetzt, die mit unterschiedlichen IT-Technologien und Frameworks umgesetzt wurden.

Einer der Schwerpunkte von Herrn Del Monte sind hochverfügbare, in Fast-Echtzeit arbeitende Softwaresysteme und deren Umsetzung mit Mitteln wie Cloud, Microservices und ereignisgesteuerten Architekturen.

Zu den interessantesten Projekten gehören die Entwicklung eines Fraud Detection Systems für ein Cashback-Unternehmen und eines webbasierten Kompetenzanalysesystems “Profil AC” für das Kultusministerium Baden-Württemberg.

Nach oben