BLUEPRINTS FÜR ANALYTISCHE FRAMEWORKS

Die Entwicklung von komplexen analytischen Modellen erfordert Kollaborations- und Wiederverwendungsmöglichkeiten. Data Science ist erwachsen geworden, die Zeit der „Künstler“ vorbei.

Analytics Framework

Data Scientist sind es gewohnt, ihre Algorithmen in den verschiedensten Technologien zu entwickeln. Die Herausforderung ist es jedoch, diese analytischen Modelle unabhängig von ihren Parametern zu entwickeln, d.h. unabhängig von Pre- und Post-Processing sowie in der gewählten Architektur der Implementierung. Im Idealfall kann so ein Modell aus Entwicklung und Test in die Produktion überführt werden, auch wenn sich ganz andere Anforderungen an Latenz der Daten oder die Datenmengen ergeben.

Analytics Blocks

Bis vor einigen Jahren noch galt das Enterprise Datawarehouse mit zentraler Business Intelligence Technologie als DIE analytische Architektur schlechthin. Für bestimmte Anforderungen und Benutzer ist dies auch immer noch aktuell. In den letzten Jahren wuchs jedoch die Erkenntnis, dass diese Architektur nicht für alle analytischen Anforderungen im Unternehmen genügt. Es fehlt die Anbindung von Echtzeitdaten, von Event-gesteuerten Anwendungen, von Smart-Data Konzepten zur Bewältigung der Sensordatenströme aber auch die Integration operativer Systeme und ganz neuer Benutzergruppen, die das Datawarehouse so nie benötigt hatten. Analytics Blocks ist ein von Gartner initiiertes Konzept, das unter pragmatischen Gesichtspunkten die Anwendergruppen sowie analytischen Anforderungen, aber auch die Daten- und Sicherheitsanforderungen clustert, um mit einem möglichst minimalen Set an Architekturvarianten die analytischen Anforderungen des Unternehmens abzubilden.

Data Science Lab

Ein Spezialfall der modernen analytischen Architekturen stellt das Data Science Lab dar. Welche Umgebung benötigt ein Data Scientist, um seine Arbeit optimal verrichten zu können? Die Herausforderung dabei ist eine stetig variierende Menge an Daten und Funktionen, die der Data Scientist benötigt. Eine reine Datensandbox, wie wir es aus Datawarehouse-Zeiten kennen, genügt hier nicht. Diese Flexibilität muss um ein flexibles Framework von analytischen Methoden, ergänzt werden. Dieses kann der Data Scientist auf die Datenmengen anwenden und für unterschiedliche Zeiträume nutzen, um Ideen zu verfolgen, Modelle agil zu entwickeln und im produktiven Einsatz zu pflegen.