Im Gespräch: Jose Quesada über Skills der Data Scientists

Jose Quesada ist hierzulande bekannt dafür, vor einiger Zeit in Berlin ein Ausbildungsprogramm für Data Scientists ins Leben gerufen zu haben. heise Developer sprach mit ihm über Fortbildungswege in diesem Bereich und wie weit man als Autodidakt kommt.

06.10.2015, 12:51 Uhr

Lesezeit: 10 Min.

Developer

Von

Alexander Neumann

Jose Quesada, Autodidakt und Gründer des Data Science Retreat

Jose Quesada ist hierzulande bekannt dafür, vor einiger Zeit in Berlin ein Ausbildungsprogramm für Data Scientists ins Leben gerufen zu haben. heise Developer sprach mit ihm über Fortbildungswege in diesem Bereich und wie weit man als Autodidakt kommt.

heise Developer: Jose, könntest du dich bitte zunächst vorstellen? Wie hast du mit Data Science angefangen und was sind deine derzeitigen Aktivitäten auf dem Gebiet?

Jose Quesada: Ich bin der Gründer von Data Science Retreat, der weltweit einzigen Ausbildungsmöglichkeit zum Data Scientist mit Mentoren auf Chief-Data-Scientist-Level, die über drei Monate in Berlin durchgeführt wird. Zurzeit sind wir im fünften Kursdurchlauf, und wir erweitern das Ganze derzeit um ein Training für Big Data Engineers mit einem ähnlichen Format. Firmen, die unsere Teilnehmer nach dem Kurs einstellen, sind zum Beispiel Zalando, Kreditech und Amazon.

Ich selbst komme ursprünglich aus einer ländlichen Umgebung, in der mein Vater Äpfel anbaute und erwartet hatte, dass ich dasselbe machen werde. Stattdessen habe ich dann Psychologie und Kunst studiert und mich in meiner PhD-Arbeit viel mit maschinellem Lernen beschäftigt. Dabei habe ich ein Softwaresystem entwickelt, mit dem Piloten für Verkehrsflugzeuge ausgebildet werden können, ohne dass ein erfahrener Ausbilder neben ihnen sitzt. (Dieses habe ich dummerweise nicht zum Patent angemeldet.)

Wie man sieht, habe ich häufig die fachliche Richtung gewechselt, ich habe mir fast alles selbst beigebracht. Ich glaube, dass wir zurzeit in einem Paradies für Autodidakten leben. Aber ab einem bestimmten Experten-Level ist es dann schwierig, weitere Fortschritte zu erzielen. Das stellen viele Data Scientists fest. Egal wie viele Online-Kurse man macht, es gibt eine Grenze, die nur sehr wenige Leute überschreiten.

Das ist der Grund, warum ich das Data Science Retreat (DSR) gestartet habe. Ich glaube, dass ich weiß, wie man eine Umgebung schafft, in der man schneller ist als das durchschnittliche Autodidaktentempo. Man braucht Mentoren auf "Chief Data Scientist"-Level, also Leute, die an den führenden Open-Source-Projekten arbeiten et cetera.

Das Data Science Retreat sehe ich als genau das Programm an, das ich gerne gehabt hätte, als ich selbst mit Data Science angefangen habe.

Was braucht es für einen guten Data Scientist?

heise Developer: Was sind denn die wichtigsten Eigenschaften, die ein angehender Data Scientist mitbringen sollte?

Quesada: Man muss einen starken Willen haben, sich selbst dazu zu bringen, die ganze Zeit neue Techniken zu lernen. Man braucht Kreativität, um die richtigen Fragen zu finden. Und man muss über gute Kommunikations-Skills verfügen, um seinen Standpunkt klarzumachen und die unterschiedlichen Interessengruppen von seinen eigenen Analysen zu überzeugen.

Es gibt drei Dinge, die man für den Eintritt in die Data-Science-Welt mitbringen muss. Erstens Programmierkenntnisse. Am besten in R oder Python, aber Kenntnisse in einer anderen Programmiersprache sollten auch ausreichen. Zweitens muss man zwingend schon etwas über Statistik und maschinelles Lernen wissen. Das sollte kein oberflächliches Verständnis dieser Datenanalysetechniken sein. Man muss wirklich
verstehen, warum eine spezielle Technik geeignet ist und wo ihre Grenzen liegen. Und schließlich muss man wissen, wie man Datenbanken abfragt.

Jeder Data Scientist wird eigene Stärken haben. Die einen werden sich gut mit Datenvisualisierung auskennen, andere mit Datenbanken und wiederum andere mit Statistik. Aber alle Data Scientists müssen grundlegende Kenntnisse in diesen Themenbereichen haben.

heise Developer: Für Interessenten der DSR-Kurse: Welche Voraussetzungen sollten diese denn – neben den genannten – noch mitbringen? Sollten Sie schon in Data-Science-Projekten gearbeitet haben, oder ist das Retreat auch etwas für jemanden, der zwar Java, SQL und einige grundlegende Kenntnisse über Statistik mitbringt, aber ansonsten ein kompletter Big-Data-Neueinsteiger ist?

Quesada: Die meisten Interessenten, die sich melden, haben vorher schon einiges über Data Science gehört. Das heißt, sie haben sich zum Beispiel über Bücher oder Online-Kurse in das Thema eingearbeitet und wollen nun das nächste Data-Science-Level erreichen. Einen kompletten Neueinsteiger, also jemanden, der vorher noch nie etwas von Big Data gehört hat, hatten wir bisher noch nicht dabei.

Wie gestalten sich die Schulungen?

heise Developer: Wie sieht der tägliche Ablauf eines DSR-Kurses aus? Ist das Ganze ein "9 to 5"-Job in Berlin, oder kann man auch Teile davon von zu Hause aus durchführen?

Quesada: Das Ganze ist schon ein "9 to 5"-Job in unseren Schulungsräumen. Das Kursprogramm selbst lässt sich einteilen in einen Teil mit Frontalunterricht und einen, in dem jeder Teilnehmer ein eigenes Portfolio-Projekt bearbeitet. Wobei sich die Anteile der beiden Komponenten im dreimonatigen Kurs verschieben: Wir starten im ersten Monat mit circa 90 Prozent Frontalunterricht, reduzieren das im zweiten Monat auf circa 60 Prozent, und im dritten Monat nimmt das Portfolio-Projekt dann fast 90 Prozent der Zeit ein.

Die Portfolio-Projekte sind zwar Einzelprojekte, werden aber auch in den Schulungsräumen durchgeführt, also nicht als eine Art Hausaufgabe. Unsere Erfahrung aus den bisherigen Kursen zeigt, dass die Teilnehmer nach einem anstrengenden Schulungstag ziemlich ausgelaugt nach Hause gehen. Hausaufgaben sind deshalb bei uns eher die Ausnahme.

heise Developer: DSR bietet neben dem "Data Science"-Kurs neuerdings einen "Big Data Engineer"-Kurs an. Worin liegt der Unterschied?

Quesada: Der Schwerpunkt beim neuen Kurs liegt ganz klar auf der Aufgabenstellung, ein produktionsreifes Big-Data-System mit den zur Verfügung stehenden Techniken zu erstellen. Die verwendeten Werkzeuge umfassen Hadoop – wobei es hier schwerpunktmäßig um das HDFS-Dateisystem und nicht so sehr um MapReduce geht – und vor allem Apache Spark. Es gibt einige wenige Überschneidungen in beiden Kursen, beispielsweise planen wir den Machine-Learning-Anteil für beide Kurse zusammen zu unterrichten. Ansonsten sind das aber getrennte Veranstaltungen mit dem Schwerpunkt Mathematik (Data Science) beziehungsweise Informatik (Big Data Engineer).

heise Developer: Welche Empfehlungen hast du für Neueinsteiger, die sich autodidaktisch in das Thema Data Science einarbeiten wollen? Ist es überhaupt möglich, Data Science ausschließlich aus Büchern und Online-Kursen zu lernen?

Quesada: Bis zu einem bestimmten Level kommt man als Autodidakt sehr gut. Das Angebot an Büchern und Online-Kursen ist für den Einstieg durchaus vorhanden. Eine konkrete Empfehlung für einzelne Bücher oder Online-Kurse möchte ich aber nicht geben, da sie sehr von den individuellen Voraussetzungen und Vorkenntnissen einer Person abhängt.

Aber irgendwann wird es schwer, als Autodidakt den letzten Schritt zu machen und auf ein Level zu kommen, mit dem man direkt in Praxisprojekten durchstarten kann. Ich habe bisher noch keinen Data Scientist kennen gelernt, der sein Wissen ausschließlich aus Büchern erworben hat. Aber das heißt natürlich nicht, dass es solche Autodidakten grundsätzlich nicht gibt.