Data Scientist – ein neues Berufsbild für die Big-Data-Welt

Wer in der IT-Welt auf Jobsuche ist, trifft in letzter Zeit immer häufiger auf den Begriff Data Scientist, meist in Verbindung mit dem Schlagwort Big Data. Ein Blick auf die Aufgaben hinter der Jobbeschreibung und Wege in den Beruf.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 11 Min.
Von
  • Rudolf Jansen
Inhaltsverzeichnis

Wer in der IT-Welt auf Jobsuche ist, trifft in letzter Zeit immer häufiger auf den Begriff Data Scientist, meist in Verbindung mit dem Schlagwort Big Data. Ein Blick auf die Aufgaben hinter der Jobbeschreibung und Wege in den Beruf.

Aktuelle Trends in den Stellenangeboten im IT-Markt zeigen, dass die Suche nach Data Scientists sich zunehmend ausweitet. Kein Wunder, sprach der Harvard Business Review 2012 in dem Zusammenhang etwa vom "sexiest job in the 21st century". Nicht immer ist eine entsprechende Ausschreibung auf den ersten Blick zu erkennen, denn nicht alle Unternehmen nutzen exakt diese Bezeichnung. Stattdessen suchen sie häufig nach dem schon länger bekannten BI-Analysten oder Big Data Engineers. Der Grund für die Begriffsvielfalt liegt darin, dass es in der IT-Welt keine eindeutige Definition für Data Science und die damit befassten Personen gibt.

Auch an dieser Stelle sollte man daher nicht versuchen, eine allumfassende Definition zu finden. Stattdessen führt der Artikel im folgenden einige Charakteristika der (neuen) Berufsgruppe auf. Im Fokus steht dabei die Frage, wie man sich in diesen Bereich einarbeiten und in ihm fortbilden kann, wenn man ein – wie auch immer definierter – Data Scientist werden will oder sich in dem Umfeld positionieren möchte.

Häufig werden die Begriffe Data Science, Big Data und NoSQL vermischt. Das liegt daran, dass zumindest für die ersten beiden keine genaue Definition existiert. Man kann Big Data als den Informatik-lastigen Teil der Data Science ansehen, während man es im mathematischen Teil eher mit Begriffen wie Machine Learning oder Predictive Analytics zu tun hat. NoSQL dagegen ist nicht mit Data Science gleichzusetzen. Vielmehr handelt es sich um einen technischen Aspekt von Big Data und somit der Data Science, der sich mit dem nicht-relationalen Persistieren von Daten beschäftigt.

NoSQL-Kenntnisse allein bringen im Data-Science-Umfeld allerdings noch keinen Mehrwert. Stattdessen ist die Auswahl der passenden NoSQL-Technik für eine konkrete Aufgabenstellung und das Einbinden eines NoSQL-Produkts in die Realisierung des Gesamtsystems von Interesse.

Ein Data Scientist benötigt (mindestens) Kenntnisse in zwei klassischen Fächern: Mathematik und Informatik. Dazu kommt idealerweise noch Wissen aus dem jeweiligen Anwendungsgebiet, denn Kernaufgabe eines Data Scientist ist es, aus diversen Datenquellen Antworten auf Fragen zu finden, die dem (internen oder externen) Kunden einen Mehrwert für einen konkreten Themenkomplex gibt.

Die Kenntnisse kommen zum Tragen, um die richtigen Fragen und dazu passende verfügbare Daten zu finden (Anwendungskenntnisse), die Daten zu analysieren (mathematische Kenntnisse) und die daraus gewonnenen Erkenntnisse in ein produktives System umzusetzen (Informatikkenntnisse). Darüber hinaus sollte ein Data Scientist gute Kommunikations- und Präsentationsfähigkeiten haben, um Entscheidungsträger im Unternehmen bei Projektstart vom Potenzial von Data-Science-Projekten zu überzeugen und ihnen später Ergebnisse präsentieren zu können.

Im Projektalltag kommen dem Data Scientist unterschiedliche Aufgaben zu. Darunter fallen

  • Datensuche (welche Daten stehen zur Verfügung beziehungsweise welche lassen sich zusätzlich besorgen),
  • Datenbereinigung (Aufbereitung der Daten für die anschließende Analyse),
  • Offline-Datenanalyse (wie lassen sich aus den vorliegenden Daten die gewünschten Informationen extrahieren) und
  • Überführen der Ergebnisse in ein produktives System zur Online-Analyse.

Insbesondere in der Offline-Datenanalyse-Phase sind tiefgehende mathematische Kenntnisse gefragt, während für die Überführung der Ergebnisse in ein Produktivsystem der Informatik-Background zum Einsatz kommt.

Eine Liste konkreter Techniken und Tools zu erstellen, die ein Data Scientist beherrschen sollte, ist aufgrund des weiten Aufgabengebiets schwierig. In jedem Fall sollte man sich aber mit der mathematischen Analysen in der Statistiksprache R sowie in Python beschäftigen und sich gut mit Hadoop sowie den diversen Bestandteilen des dazugehörenden Ökosystems auskennen.

Wer sich derzeit noch in einer Ausbildung befindet, hat vielleicht das Glück, bereits Kurse beziehungsweise Vertiefungen im Bereich Big Data angeboten zu bekommen. Aber auch abseits solcher Spezialisierungen ist eine Mischung aus den für Data Science benötigten Fächern innerhalb des Studiums (zum Beispiel Informatik mit Nebenfach Mathematik oder umgekehrt) empfehlenswert, wenn man sich auf eine Karriere in dieser Diziplin vorbereiten möchte. Daher der dringende Aufruf an alle interessierten IT-Studierenden, die Mathematik- und speziell die Statistikvorlesungen nicht als notwendiges Übel, sondern als zwingende Voraussetzung für die Big-Data-Welt anzusehen.

Wer seine Ausbildung bereits hinter sich hat und eine Möglichkeit sucht, sich in den Data-Science-Bereich einzuarbeiten, für den bieten sich Konferenzen über Big-Data-Themen als erste Orientierung an. Im deutschsprachigen Raum können das beispielsweise die jährlich stattfindenden Konferenzen Berlin Buzzwords mit einer starken technischen Ausrichtung, die TDWI-Konferenz in München mit Schwerpunkt auf Data-Warehouse-Themen sowie die data2day-Konferenz des Heise-Verlages sein. Auch auf anderen (Entwickler-)Konferenzen sowie bei Veranstaltungen von User Groups findet man Programmpunkte aus den Bereichen Data Science und Big Data.