Datenanalyse mit großen Sprachmodellen: Wie Sie mit eigenen Daten chatten
Große Sprachmodelle können die Auswertung von unbekannten Daten durch Analyse und Visualisierung beschleunigen. Ein Überblick stellt Methodik und Tools vor.
- Ramon Wartala
Jeder Datenanalyst kennt es: Eine neue Datenbank oder Datendatei soll nach Mustern oder Anomalien durchsucht werden. Ausgerüstet mit den nötigen Python-Frameworks wie pandas, scikit-learn und einem Jupyter-Notebook nähert man sich der Datenquelle, bringt die Daten in der Regel tabellarisch in Form eines DataFrame und untersucht sie dann innerhalb eines Notebooks (Download via GitHub) mit den verschiedensten Werkzeugen. Doch steckt hier der Teufel oftmals im Detail. Vielleicht liegen die Daten in einer relationalen Datenbank und man muss neben dem passenden Datenbank-Konnektor auch noch verstehen, welche Attribute und welche Relationen wichtig für die Zielfragestellung sind.
Mit dem Aufkommen großer Transformer-Sprachmodelle (Large Language Models, LLMs) sind Werkzeuge wie Vanna.AI, PandasAI oder Cube entstanden, die die automatische Analyse und deren Visualisierung mithilfe natürlicher Sprache versprechen. Statt die Daten über SQL oder die äquivalente pandas-Notation abzufragen, stellt man dem Sprachmodell einfach Fragen zu dem zu analysierenden Datensatz, gibt die Daten als Kontext im Prompt mit und erhält daraufhin eine fertige Visualisierung. Wäre dieser Schritt einmal allgemein etabliert, würden zukünftig nicht nur Datenwissenschaftler und -analysten komplexe Datenquellen befragen können. Auch Businessanalysten, Product Owner oder andere Stakeholder könnten einfache Datenanalysen ohne spezielle Abfrage- oder SQL-Kenntnisse durchführen.
Für diese Form der Datenanalyse ist in der Regel mehr als ein Prompt nötig. Im ersten Schritt muss das Sprachmodell verstehen, um welche Art von Daten es sich handelt. Das lässt sich über die Metadaten der Tabelle einer Datenbank oder über die Datentypen eines DataFrames herausfinden. Hier erfährt das Sprachmodell nicht nur, ob es sich um eine Zahl oder einen String handelt, sondern auch, in welchem Bereich diese Zahlen liegen, welche Verteilungen oder Standardabweichungen vorliegen und welche typischen Vertreter eines Datenattributes existieren.
Das war die Leseprobe unseres heise-Plus-Artikels "Datenanalyse mit großen Sprachmodellen: Wie Sie mit eigenen Daten chatten". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.