Data Science: Einführung in die explorative Datenanalyse
Große Datenmengen aufzubereiten, ist nicht nur aufwendig, sondern auch zeitraubend. In diesem Artikel geht es um die Theorie und Notebooks für die Datenanalyse.
- Tom Alby
Die explorative Datenanalyse (EDA) ist ein Ansatz aus der Statistik, der einen Datensatz säubert, untersucht und analysiert. Bei dieser Untersuchungsmethode können Sie mithilfe von zusammengefassten statistischen Kenngrößen und grafischen Tools mehr über Ihre Daten erfahren und ermitteln, was Sie aus ihnen lernen können.
Dieser Ansatz ist ein wichtiger Teil von Data-Science-Projekten. Die Aufbereitung der Daten für die Nutzung in einem Modell wird häufig unterschätzt, schließlich sind Daten nicht immer so vorhanden, wie man sie benötigt. Häufig liegt der Aufwand zur Aufbereitung bei 80 Prozent der Zeit, die insgesamt für ein Projekt benötigt wird.
In diesem Artikel beschreiben wir, was bei der Sammlung, der Reinigung und Transformation von Daten zu beachten ist. Nach der Theorie befassen wir uns mit sogenannten Notebooks für die professionelle Datenanalyse.