Bayes´sches Programmieren

Wenn eine Informatikerin einen Fachartikel zur Genetik veröffentlicht, runzeln ihre Kollegen die Stirn - sollte man meinen.

vorlesen Druckansicht
Lesezeit: 5 Min.
Von
  • Wade Roush

Illustration: Johannes Pernerstorfer

Wenn eine Informatikerin einen Fachartikel zur Genetik veröffentlicht, runzeln ihre Kollegen die Stirn - sollte man meinen. Doch Daphne Kollers Forschungen rufen eher Begeisterung als Skepsis hervor, obgleich sie auf einem recht obskuren Zweig der Wahrscheinlichkeitstheorie beruhen: der so genannten Bayes'schen Statistik.

Die Professorin von der Stanford University entwickelt Programme, die nicht nur Fragen zur Funktionsweise von Genen beantworten, sondern auch Licht ins Dunkel um das alte, computerwissenschaftliche Problem der Unschärfe bringen: Muster erkennen, Kausalzusammenhänge finden und Vorhersagen machen auf Basis eines zwangsläufig unvollständigen Wissens über die reale Welt. Die Bayes'schen Rechenansätze versprechen unter anderem Fortschritte bei der automatischen Fremdsprachenübersetzung, bei der Mikrochipproduktion und bei der Medikamentensuche. Neben Universitäten interessieren sich deshalb auch Unternehmen wie Microsoft oder Google für diese Methodik.

Aber wie kann eine Idee, ersonnen von einem Pfarrer aus dem 18. Jahrhundert (Thomas Bayes), die moderne Computerwissenschaft voranbringen? Bei älteren Verfahren, Rechnern logisches Denken beizubringen, musste der Maschine jeder Kausalzusammenhang explizit beigebracht werden ("Regen macht das Gras nass"). Programme, die sich auf Wahrscheinlichkeitstheorien wie die Bayes'sche Mathematik stützen, können dagegen eine große Datenmenge aufnehmen ("es regnet", "das Gras ist nass") und daraus wahrscheinliche Beziehungen selbst ableiten - eine wichtige Fähigkeit. Denn viele Entscheidungen, die Programmierer gern automatisieren würden, können nicht im Voraus geplant werden.

Das gilt zum Beispiel für die Entscheidungen einer Suchmaschine, die bei ihrer Recherche die vorherigen Anfragen des Benutzers mitberücksichtigen soll. Solche Suchentscheidungen verlangen von den Maschinen, unvorhersehbare Kombinationen verschiedener Indizien abzuwägen und die bestmöglichen Schlüsse daraus zu ziehen. "Die Bayes'schen Verfahren werden alles beeinflussen, was wir mit Computern machen, von der Datensuche bis zur Auswertung von Sensor-Informationen", sagt David Tennenhouse, Forschungsdirektor von Intel.

Daphne Koller hat sich als Anwendungsgebiet für ihre Bayes'schen Algorithmen die Gen-Regulation ausgesucht. Die Häufigkeit, mit der jedes Gen innerhalb einer Zelle in sein zugehöriges Protein übersetzt wird, hängt von den Signalen unzähliger Proteine ab, deren Baupläne wiederum in anderen Genen festgeschrieben sind. Neue biomedizinische Techniken liefern so viele Daten, dass Wissenschaftler Schwierigkeiten haben, all die verschiedenen Wechselwirkungen zu entwirren. Das verlangsamt die Suche nach neuen Medikamenten gegen Krankheiten wie Krebs oder Diabetes.

Kollers Programm durchkämmt die Daten tausender Gene und prüft dabei die Wahrscheinlichkeit, dass Aktivitätsänderungen eines Gens durch Aktivitätsänderungen anderer Gene erklärt werden können. Die Software bestätigte nicht nur altbekannte Wechselwirkungen, die jahrelange Forschungsarbeiten bereits offen gelegt hatten. Sie entdeckte auch einige bis dahin unbekannte Regulationsmechanismen. "Menschen haben nur beschränkte Fähigkeiten, viele unterschiedliche Hinweisstücke zu einem Gesamtbild zusammenzufügen", sagt Koller. "Computer kennen keine solche Beschränkung."

Natürlich ist Daphne Koller nicht die Einzige, die den Kampf mit der mathematischen Unschärfe auf sich nimmt. Doch nach Ansicht von David Heckerman, Leiter der Forschungsgruppe für Maschinenlernen und Angewandte Statistik bei Microsoft, hat sie die optischen Modelle entscheidend weiterentwickelt, mit denen Bayes'sche Programmierer arbeiten, um komplexe Abhängigkeitsnetze bildlich darzustellen. Typischerweise sind das Diagramme, auf denen die untersuchten Objekte, ihre Eigenschaften und ihre Beziehungen zueinander eingezeichnet sind.

Um beispielsweise die Reaktion eines Aids-Kranken auf eine Medikamentenbehandlung vorherzusagen, muss man zum einen wissen, wie der Patient auf frühere Therapien reagiert hat; zum anderen aber auch den speziellen Stamm des Virus kennen, das der Patient in sich trägt, die Resistenzen der verschiedenen Virusstämme und noch eine Reihe anderer Faktoren. Ältere Bayes'sche Programme konnten mit derart vielschichtigen Beziehungsgeflechten nicht umgehen, aber Daphne Koller habe Wege gefunden, um "jede zusätzliche Struktur darzustellen, Schlussfolgerungen aus ihr zu ziehen und daraus zu lernen", sagt Heckerman.

Forscher arbeiten im Moment an maßgeschneiderter Bayes'scher Software für eine Vielzahl praktischer Anwendungen, darunter Roboter, die selbstständig Lagepläne von Minenfeldern entwerfen können, und Algorithmen, die Prüfdaten über die Qualität von Halbleiterplatten auswerten. Solche Programme werden derzeit zum Beispiel bei Intel entwickelt. Außerdem sind inzwischen mehrere Doktoranden aus Kollers Labor bei Google angestellt. Dort verwenden sie Bayes'sche Methoden, um in der riesigen Menge verknüpfter Daten des Internets Muster zu erkennen und nutzbar zu machen.

Einige Programme, die auf Bayes'schen Theorien basieren, sind sogar schon auf dem Markt: Outlook 2003 von Microsoft etwa enthält Bayes'sche Office-Assistenten. Und die britische Firma Agenda hat eine Bayes'sche Software entwickelt, die das Sehverhalten von Kabel- und Satellitenkunden analysiert und ihnen anschließend entsprechende Fernsehsendungen empfiehlt. Bei Agenda hofft man, die Technologie international vermarkten zu können.

"Diese Dinge klingen nach Zukunftsmusik", sagt Eric Horvitz, Forscher bei Microsoft und ein großer Befürworter Bayes'scher Methoden. "Aber wir entwickeln jetzt brauchbare Werkzeuge, die sich schon in der nächsten Software-Generation wiederfinden werden." (sma)