Skalierbares Data Warehousing und Predictive Analystics in der Cloud. Ein Anwendungsbeispiel mit Snowflake Computing und Spark MLlib

Data | Vortrag | 45 min | Deutsch

12:30 | BAHNHOF PAULI

Bedarfsgerechte, horizontale und vertikale Skalierung sind zentrale Anforderungen an moderne Analyse Architekturen. Wir präsentieren eine Kombination aus Apache Spark und Snowflak Computing, die als Cloud Lösung diesen Anforderungen in höchstem Maße gerecht wird. Durch Snowflake können Features aus relationalen und semi-strukturierten Quellen schnell generiert und den Machine Learning Algorithmen aus Sparks MLlib bereitgestellt werden. So lassen sich Vorhersagemodelle verhältnismäßig einfach in skalierbare BI Systeme integrieren, die neben klassischen Data Warehouses auch semi-strukturierte Quellen umfassen können.
Um die Funktionsweise der gewählten Architektur zu verdeutlichen, präsentieren wir eine Sentimentanalyse, die auf Produktratings und -reviews basiert. Aus Reviewtexten wurden dabei verschiedene Features extrahiert, die als Input für ein Klassifikationsmodel des Produktratings dienen. So können Texte aus Quellen, die selbst keine Ratings enthalten, dahingehend ausgewertet werden, ob Produkte darin eher positiv oder negativ dargestellt werden. Die Zusammenführung der Ergebnisse mit Produktdetails aus relationalen Systemen erlaubt schließlich Aufschlüsse darüber, welche Produkteigenschaften mit einer positiven oder negativen Bewertung korrelieren.

Matthias Orlowski

areto consulting

Seit Januar 2018 verantwortet Matthias Orlowski den Themenbereich Data Science bei areto consulting. Zuvor war er als Data Scientist bei einer Bundespartei tätig, wo er mit dem Aufbau der IT Infrastruktur für Datenanalysen betraut war und Vorhersagemodelle für unterschiedliche Aspekte politischen Verhaltens entwickelte.