Das neue Internet-Orakel
Google und der CIA-Ableger In-Q-Tel haben in ein Unternehmen investiert, das aus der automatisierten Analyse großer Mengen von Intenet-Suchanfragen, Blog-Beiträgen, Nachrichten oder ähnlichem angeblich Trends und Entwicklungen vorhersagen kann. Müssen wir uns Sorgen machen?
Wie die FAZ berichtet, hat das Unternehmen „Recorded Future“ wieder mal für Schlagzeilen gesorgt: Es arbeitet an Software zum so genannten „Predictive Modeling“ - aus der automatisierten Analyse großer Mengen von Intenet-Suchanfragen, Blog-Beiträgen, Nachrichten oder ähnlichem kann die Software angeblich Trends und Entwicklungen vorhersagen.
Die Tatsache, dass es solche Software gibt, ist nicht neu. Pikant an der Geschichte ist allerdings, dass sowohl Google als auch das Unternehmen „In-Q-Tel“ in Recorded Future investierten. Hinter In-Q-Tel steht der amerikanische Geheimdienst CIA - und Google hat in letzter Zeit eifrig daran gearbeitet, ein Image als datenfressende Big-Brother-Krake aufzubauen. Müssen wir uns jetzt endgültig Sorgen machen? Bauen die Google-Priester am Internet-Orakel?
Ich will hier nicht wieder das alte Google bashing aufwärmen. Die Geschichte wirft eine viel spannendere Frage auf, die Niels bereits in seinem Beitrag zu den auf Wikileaks veröffentlichten Afghanistan-Dokumenten angerissen hat : Sprechen Daten wirklich für sich? Und wenn ja, was sagen sie uns? Zugegeben, die Frage klingt ein wenig gaga. Ist sie aber nicht. Wir treffen ständig Entscheidungen auf der Basis von Dingen, die wir zu wissen glauben - angereichert mit mehr oder weniger vagen Emotionen und verschwommenen Erinnerungen an irgendwelche früheren Erfahrungen. Aus diesem kognitiven Gewusel treffen wir in der Regel zielsicher eine Auswahl an wirklich „relevanten“ Fakten, auf die wir unsere Entscheidung stützen. Aber logisch ableitbar ist das alles überhaupt nicht.
Wir arbeiten also ständig mit unvollständigen Informationen, mit Fakten, die eigentlich mehr neue Fragen aufwerfen, als sie beantworten können.Umgekehrt: Wie vollständig müssen „vollständige Informationen“ sein, um sich auf ihrer Basis ein „richtiges“ - also mit der Wirklichkeit übereinstimmendes - Bild von der Welt zu zeichnen?
Stellen wir uns also eine Maschine vor, die all das Vorwissen, das wir normalerweise haben, nicht hat. Nehmen wir an, diese Maschine wäre in der Lage, perfekt zu lernen und sich alle fehlenden Informationen, die sie nicht hat, sehr schnell zu besorgen. Diese Maschine müsste, um eine ganz simple rationale Entscheidung zu treffen, beinahe alles über die Welt lernen - das Dilemma taucht in der Künstlichen Intelligenz unter dem Stichwort „Grounding Problem“. Die gängige Lösung besteht darin, mehr oder weniger geschickt mit statistischen Methoden zu jonglieren, also damit zu leben, dass man nicht alles über die Welt weiß, die vorhanden Fakten aber mit „zu xy Prozent richtigen Fakten“ auffüllen kann.
Wenn nun aber Systeme wie die Software von „Recorded Future“ ihre Datenbasis aus dem Internet beziehen, was für ein Bild der Wirklichkeit ergibt sich daraus? Mehr noch - ergibt sich daraus nicht eine phantastische Rückkopplung? Wenn die Software auf Basis der vorhandenen Daten beispielsweise schließt, dass sagen wir mal die Iraner in drei Monaten eine Atombombe haben, wird diese Annahme beim nächsten Suchlauf als wahr angenommen? Die Vorhersage, die sich aus diesen Fragen ableiten lässt, ist eigentlich ganz einfach und klar: Das große Software-Orakel hat nur dann eine Chance sich nicht unsterblich zu blamieren, wenn es vorgeht, wie alle seine historischen Vorgänger: immer möglichst vage und zweideutig bleiben. Dann klappt’s auch mit weiteren Millionen.
(wst)