Mit eigenen Dokumenten und Datenbanken sprechen

Mit dem Python-Framework LlamaIndex lassen sich ChatGPT, Meta LLama und andere Large Language Models unkompliziert um eigene Daten erweitern. Retrieval Augmented Generation macht es möglich, mit seinen Dokumenten und Datenbanken in natürlicher Sprache zu kommunizieren.

Von Gerhard Völkl

Bei ChatGPT und ähnlichen Programmen besteht die Eingabe aus einfachem Text und als Ergebnis liefert die Software umfangreiche Berichte oder sogar Programmcode zurück. Wünschenswert wäre es, wenn das mit eigenen Dokumenten oder Datenbanken genauso einfach gehen würde. Umständliche Abfragen mit SQL oder komplizierte Suchen in Texten wären dann überflüssig. Das freie Python-Framework LLamaIndex hat genau das im Blick: ChatGPT und andere Large Language Models (LLMs) möglichst einfach mit den eigenen Daten zu verbinden. Es bietet bereits fertige Vorgehensweisen, für die keine Vorkenntnisse erforderlich sind, aber auch Bausteine, aus denen man eigene Datenintegrationen entwickeln kann.

Der Artikel konzentriert sich zum einen auf unstrukturierte Daten wie Texte und zum anderen auf strukturierte SQL-Datenbanken, da ein Großteil der Informationen der realen Welt in diesen Formaten gespeichert ist. Zum Verarbeiten großer Textmengen sind Vektordatenbanken eine performante Möglichkeit; sie lassen sich – falls notwendig – ebenfalls in LLamaIndex verwenden.