NoSQL für Data Science illustriert an einer Volltextsuche
IT-Engineering & Domain Driven Design | 30 min | Deutsch
DO | 11:30 | HÄKKEN
Der Artikel beschreibt die Notwendigkeit bestehende –insbesondere relationale DWH Architekturen – durch NoSQL Komponenten zu ergänzen, anhand des Anwendungsfalls einer Suchmaschine für einen Korpus von Textdokumenten (inklusive maschineller Übersetzung).
Wir arbeiten heraus, warum es unter anderem bei Anwendungsfällen im Data Science Kontext sinnvoll sein kann, je nach Anwendungsfall unterschiedliche Datenarchitekturkomponenten zu entwickeln. Um neue Architekturkomponenten flexibel in eine bestehende Datenplattform (z.B. Data Lakes, DWH) integrieren zu können, betonen wir die Nützlichkeit von ‚Infrastructure as Code‘ (IaC) und deren Voraussetzungen (z.B. Cloud, Kubernetes, CI/CD Pipelines etc.). Das IaC Paradigma erlaubt es uns, eine Anwendung samt der dafür notwendigen Infrastruktur zu deployen.
Neben Erläuterungen zur allgemeinen Nützlichkeit von NoSQL Datenbanken in Data Science Umfeld, gehen wir detailliert auf ein Praxisbeispiel ein, welches die Implementierung einer Suchmaschine zum Ziel hat. Wir zeigen auf, warum relationale Strukturen ungeeignet sind, um eine Volltextsuche zu implementieren. Anschließend wird eine Infrastruktur dargestellt, welche auf der NoSQL Datenbank Elasticsearch basiert, die gut geeignet ist, um den Anwendungsfall einer Volltextsuche zu realisieren. Wir erwähnen dabei auch die aus dem Natural Language Processing (NLP) bekannten Verarbeitungsschritte, wie z.B. Stemming, Lemmatization und Synonyme. Da der Aufbau neuer Infrastruktur ohne Zweifel ein komplexes Unterfangen ist, führen wir IaC als eine Abstraktionsschicht ein, mit der wir die Komplexität reduzieren können.
Wir stellen einen ganzheitlichen Ansatz vor, welcher sowohl die Anwendungskomponenten, die Datenflüsse (Pipelines) und die Infrastruktur programmatisch realisiert. Dabei wird klar, dass z.B. die Entwicklung der Pipelines stark von traditionellen ETL Ansätzen abweichen kann und insgesamt ein Umdenken im Vergleich zum klassischen BI Vorgehensmodell erforderlich ist. Das daraus resultierende geänderte Skillprofil wird von uns ebenfalls erläutert und diskutiert.
Christoph Berns
areto consulting gmbh
Dr. Christoph Berns ist Themenleiter für den Bereich Data Science & Data Engineering bei der areto consulting GmbH. Er verfügt über sieben Jahre Erfahrung im Design und der Implementierung von Datenarchitekturen insbesondere für Anwendungsfälle rund um den Themenkomplex AI und Data Science.