Der Börsen-Turbo

Mittels Stream-Computing auf einem Superrechner kann IBM die Analyse von Finanzmarktdaten auf das 21-Fache beschleunigen.

vorlesen Druckansicht
Lesezeit: 5 Min.
Von
  • Kate Greene

(Bild: IBM)

Supercomputer sind schon beeindruckende Bitfresser: Mittels vieler parallel arbeitender Prozessorkerne können sie enorme Datenmengen verarbeiten. Die meisten tun das allerdings, indem sie Information zuerst aus einer Datenbank holen, sie verarbeiten und dann ein Ergebnis produzieren. Dieser Prozess kann, je nach Aufgabe, Minuten oder Tage dauern. Beim Ansatz des Stream-Computings, den Forscher seit einigen Jahren weiterentwickeln, werden eingehende Datenströme hingegen in Mikrosekunden bewältigt. Damit könnten zum Beispiel Verkehrsüberwachungs- und Wetterdaten zusammen mit Unfallberichten genutzt werden, um den weiteren Verkehrsverlauf zu prognostizieren. Audio-Streams könnten schneller transkribiert oder übersetzt werden.

Der IT-Konzern IBM hat nun das Stream-Computing auf die blitzschnelle Analyse von Finanzmarktdaten angewendet. Ergebnis: eine Maschine, die automatisierte Handelssysteme bei der Ermittlung von Wertpapierkursen unterstĂĽtzt, indem sie brandaktuelle Marktereignisse in die Rechnung einbezieht. HierfĂĽr hat sich IBM mit mit der Investment-Banking-Firma TD Securities zusammengetan, um die IBM-Software InfoSphere Streams auf Finanzmarktdaten loszulassen. Das geschah auf einem der aktuellen IBM-Superrechner, dem Blue Gene/P.

Das IBM-System verbessert dabei gängige Handelssysteme, die Daten aus zahlreichen Quellen in aller Welt – etwa fluktuierende Börsenkurse oder Handelsumsätze – sammeln. Die werden gewöhnlich in Stücke, so genannte Nachrichten, zerlegt, die dann durch die verschiedenen Handelssysteme laufen. Je mehr Nachrichten ein solches System verarbeiten kann, desto mehr Wertpapierkurse lassen sich damit ermitteln und desto mehr Optionen können verkauft werden, indem es potenzielle Käufer und Verkäufer zusammenführt.

Die entscheidende Neuerung sei nun, wie Nagui Halim vom IBM-Stream-Computing-Projekt erläutert, dass diese Finanzdatenströme dank der optimierten Software auf einem Blue Gene/P viel schneller analysiert werden als bisher. „Pro Sekunde laufen rund fünf Millionen Nachrichten ein“, sagt Halim. Jede einzelne könne innerhalb von 200 Mikrosekunden verarbeitet werden. Damit ist das System von IBM und TD Securities 21 Mal schneller als andere Handelssysteme.

In manchen Fällen sei es besonders wichtig, einlaufende Daten sofort verarbeiten zu können, so Halim und nennt ein Beispiel aus der Medizin. Hier hat IBM ein System entwickelt, das permanent die Lebensfunktionen eines Patienten wie den Sauerstoffgehalt des Blutes überwacht und zugleich statistische Patientendaten wie dessen Gewicht oder die verordneten Medikamente mit einbezieht. Die so erhobenen Datentypen, die in die Hunderte gehen können, zeichnen dann ein Bild vom Gesundheitszustand des Patienten, das ein Arzt oder eine Krankenschwester allein aufgrund der eigenen Beobachtungen nicht bekommen würde.

Das Stream-Computing-System für Finanzdaten basiert laut Halim auf drei Komponenten: erstens Datenflüsse, die in einer bestimmten Richtung durch das System fließen; zweitens die Tatsache, dass die Daten innerhalb eines Streams stückweise, in so genannten Fenstern, vorliegen; und drittens die Anwendung von Algorithmen, die die Rate, mit der die Daten einlaufen, aufzeichnen, die Möglichkeiten der Hardware berücksichtigen und den Datenfluss am effizientesten steuern können. Diese Algorithmen würden den Stream aufsplitten und die Teile verschiedenenen Hardware-Komponenten zuweisen, die jeweils auf eine bestimmte Aufgabe spezialisiert sind, sagt Halim.

So könnten zum Beispiel einige Kerne eines Superrechners dafür optimiert werden, Medienberichte zu verarbeiten und auf das Wesentliche zu verdichten – etwa das Gesundheitsproblem eines populären Firmenchefs. Andere hingegen werden für einfache mathematische Operationen ausgelegt, die sie auf bestimmte einlaufende Daten anwenden. Hierfür hat IBM auch eine eigene Stream-Computing-Sprache namens „Spade“ entwickelt, die die Kapazitäten eines Superrechners ohne allzu großen Programmieraufwand bewerten kann. Laut Halim könne Spade auch auf andere Multi-Prozessor-Maschinen laufen, nicht nur auf Blue Gene/P.

Die Idee des Stream-Computings selbst ist gar nicht so neu. Daten zu verarbeiten, sobald sie auf dem Rechner ankommen, sei bereits in den sechziger Jahren vorgeschlagen worden, sagt Saman Amarasinghe, Informatiker am MIT. Wirklich praktikabel wurde sie aber erst in den letzten Jahren mit dem Erfolg der Mehrkern-Prozessoren, deren verschiedene Einheiten Daten unabhängig voneinander bearbeiten. Das Aufsplitten von Datenströmen und das Zuteilen verschiedener Stücke an einzelne Kerne seien relativ einfach, so Amarasinghe. Dank Verbesserungen in der Theorie des Stream-Computings könne es nun auch auf reale Probleme angewendet werden. „IBM hat das Konzept in den High-Performance-Bereich gebracht.“

Amarasinghe sieht einige Faktoren, die die Popularität des Stream-Computings fördern werden. Die Halbleiter-Industrie plane, die Anzahl von Prozessorkernen auf Chips weiter zu erhöhen. Außerdem handele es sich um einen vergleichsweise unkomplizierten Programmieransatz, um Mehrkern-Prozessoren zu nutzen. Und schließlich sei die Datenexplosion, etwa durch Video- oder Audio-Streams ungebrochen. „Die Entwicklung könnte zu ausgeklügelten Schnittstellen führen, die Video- und Audio-Interaktion von Menschen in Echtzeit verarbeiten.“ (nbo)