Fußball-Europameisterschaft: So funktioniert das Spielertracking technisch

"Fußballliebe" heißt der EM-Ball so nett, ist aber ein High-Tech-Gerät mit Sensoren. Seine Daten und KI helfen Schiedsrichtern etwa bei der Abseitserkennung.

In Pocket speichern vorlesen Druckansicht 130 Kommentare lesen
, FIFA

(Bild: FIFA)

Stand:
Lesezeit: 14 Min.
Inhaltsverzeichnis

"Der Ball ist rund und ein Spiel dauert 90 Minuten", sagte Sepp Herberger anno 1954. Heutzutage zieht sich das Spiel mindestens 100 Minuten, weil es ständig unterbrochen wird. Immerhin ist der Ball noch rund, aber ansonsten hat er mit dem rustikalen Spielgerät aus Herbergers Zeiten nicht mehr viel gemein: Der EM-Ball "Fußballliebe" ist ein Hightech-Spielzeug mit Sensorkern, das Stadion mutiert zu einem gigantischen 3D-Scanner. Beide zusammen erheben Unmengen an Spieldaten, die das Match und Schiedsrichtereintscheidungen direkt beeinflussen sowie Echtzeit-Auswertungen und -visualisierungen für die Zuschauer ermöglichen. Dazu erfasst das System die Positionen von Spielern und Ball und bereitet das für die Entscheidung relevante Bildmaterial grafisch auf: mit automatisch generierten Positionslinien sowie Markierungen an den relevanten Körperteilen der beteiligten Spieler. Zugleich fließen die Daten in einen Pool, aus dem Verbände und Vereine die Informationen für ihre Spiel- und Leistungsanalysen schöpfen. Sie bilden auch das Fundament für lukrative Games wie FIFA.

Ihre Premiere feierte die Kombination aus Sensorball ("Al Rihla") und Kameratechnik bei der WM 2022 in Katar: Sie sollte vor allem die Arbeit des Videoschiedsrichters (Video Assistant Referee, VAR) bei der Abseitserkennung beschleunigen. Denn weil der Ball exakt aufzeichnet, wann ein Spieler ihn berührt hat, finden die Hilfsschiedsrichter auch die strittigen Szenen im aufgezeichneten Videomaterial schneller. Die mitunter ineffiziente Suche nach den entscheidenden Frames und die daraus resultierenden zähen Spielunterbrechungen sollten sich erheblich verkürzen, so das Versprechen – von durchschnittlich 70 auf 25 Sekunden.

Mehr zu Künstlicher Intelligenz

Nun kommt die Technik erstmals bei einer Fußball-Europameisterschaft zum Einsatz. Das System hat sich seit seiner WM-Premiere nicht grundlegend verändert, es bleibt bei dem von Adidas/Kinexon entwickelten Ball und dem KI-gestützten Kamerasystem fürs Spieler-Tracking. Seinen großen Auftritt hatte der Sensorball definitiv im WM-Spiel Portugal gegen Uruguay, als er den Beweis erbrachte, dass nicht Cristiano Ronaldo das Auftakttor geschossen hatte, sondern sein Teamkollege Bruno Fernandes. Während die Videobilder zu unscharf waren, verrieten die Sensordaten: Ronaldo konnte den Ball gar nicht mit dem Kopf berührt haben, weil der eingebaute Sensor keine Erschütterung registriert hatte. Nach der Ballabgabe durch Fernandes flachte die aufgezeichnete Messkurve rasch ab und schlug erst wieder aus, als der Ball auf dem Boden auftraf.

c't kompakt
  • Der Video Assistant Referee trackt Spieler und Ball und schlägt bei Verdacht auf Abseits Alarm.
  • Innerhalb von Sekunden steht eine virtuelle Simulation der Spielszene mit Hilfslinien parat, die dem Schiedsrichter bei seiner Entscheidung hilft.
  • KI hilft, Körperextremitäten der Spieler in unübersichtlichen Spielsituationen zuzuordnen.

Deutlich komplexer gestalten sich Datenanalyse und -aufbereitung bei der Abseitserkennung. Anhand maschinell angereicherter Videobilder sollen die menschlichen Assistenten in den Schiedsrichterkatakomben möglichst schnell beurteilen können, ob tatsächlich eine regelwidrige Abseitsstellung vorliegt. Damit auch das Publikum im Stadion die Entscheidung nachvollziehen kann, werden die vom System errechneten Positions- und Kameradaten anschließend in 3D visualisiert, um die Szene direkt auf den Stadionmonitoren aus unterschiedlichen Blickwinkeln zeigen und erklären zu können. Weil die Technik nur potenziell verdächtige Spielerkonstellationen ermitteln, diese aber nicht gemäß den Regeln interpretieren kann, spricht die FIFA von halbautomatischer Abseitserkennung (Semi-automated Offside Technology, SAOT).

Die halbautomatische Abseitserkennung trackt Ball und Spieler mit Zehenspitzen-Genauigkeit und schlägt bei potenziell regelwidrigen Konstellationen Alarm.

(Bild: FIFA)

Mit der Hardware von gestern ist das nicht zu leisten, weshalb Spielstätten und sogar der Ball ordentlich aufgerüstet werden mussten: Im WM-Ball "Al Rihla" und im EM-Nachfolger "Fußballliebe" verbergen sich mehrere Sensoren. Das Spielfeld umrahmen 12 bis 24 Antennen, die deren Signale empfangen. Und in luftiger Höhe unter dem Stadiondach beobachtet ein Ring aus 8 bis 32 Videokameras das Geschehen. Sie sammeln exakte Positionsdaten fürs Echtzeit-Spielertracking, die ein paar clevere Algorithmen auswerten und am Ende in virtuelle Szenen umsetzen.

Virtuelle Zeitlupe für die Stadion-Leinwand: Anhand der Tracking-Daten wird eine 3D-Animation gerendert, um dem Publikum strittige Szenen zu erläutern.

(Bild: FIFA)

Damit mutieren die Fußballarenen zu gigantischen 3D-Scannern – und zu gigantischen Produktionsstätten für Spiel- und Spielerdaten, die die Fußballverbände nun selbst monetarisieren können: bei Medien, Vereinen, Spielerberatern, fürs Scouting und die Trainingssteuerung sowie die lukrative Zweitverwertung in interaktiven Spielen.

Zurück zur Technik selbst, die schließlich das Fundament des künftigen Datensegens bildet: Ohne das SAOT muss ein Schiedsrichterassistent bei Abseitsverdacht die entscheidenden Frames selbst suchen und darin manuell Linien ziehen, um die Positionen der Spieler relativ zueinander und zum Ball beurteilen zu können. Kritiker bemängelten, dass das rein videogestützte System schon aus technischen Gründen keine ausreichend präzisen Daten liefert, um den Zeitpunkt des Abspiels sowie die Spielerkoordinaten exakt zu bestimmen: Die Bildwiederholrate von 50 Frames pro Sekunde reiche dafür schlicht nicht aus. Und Wissenschaftler der Universität Bath konnten nachweisen, dass Menschen dabei den Abspielzeitpunkt im Schnitt 132 Millisekunden zu spät ansetzten. In einem dynamischen Spiel wie Fußball kann sich die Situation während dieser Zeitspanne komplett geändert haben.

Vor allem bei engen Konstellationen gestaltete sich das gesamte Prozedere vom Verdacht bis hin zur Entscheidung recht zäh. Dem Fußball-Dachverband zufolge verstrichen beim klassischen VAR im Schnitt 70 Sekunden bis zur Entscheidung, im Extremfall konnten es aber auch mal 5 Minuten sein. So viele lange Pausen zum Chips- und Getränkeholen brauchen nicht mal Fußballfans. Mit der neuen Methode soll es nur 15 bis 25 Sekunden dauern. Noch weiter lässt sich die Zeit laut FIFA nicht drücken, obgleich die SAOT das fragliche Bildmaterial binnen 5 Sekunden liefert. Dieses muss aber in jedem Fall von einem Menschen gesichtet werden, weil die Technik nur Abseitsstellungen identifiziert, aber nicht jede Finesse des Regelwerks interpretieren kann.

Außerdem handelt es sich zum Teil um ein statistisches, vorhersagengestütztes System, das vermutlich nicht in jeder turbulenten Spielsituation verlässlich funktioniert. Unsere Fragen zu technischen Details wie etwa die verwendeten Trainingsdaten und Algorithmen ließ die FIFA unbeantwortet, weshalb wir die grobe Funktionsweise und potenzielle Schwächen des SAOT lediglich anhand von Forschungsarbeiten und öffentlich verfügbarem Material der beteiligten Firmen nachvollziehen konnten.

Um eine Abseitsstellung zu erkennen, muss das System im Wesentliche folgende zentrale Fragen beantworten: Wo ist der Ball und wann genau wurde er abgespielt? Zu welchem Team gehört der Abspieler? Wo befinden sich die anderen Spieler der eigenen und gegnerischen Mannschaft, beziehungsweise genauer: deren torgefährliche Körperteile?

  • Ein Spieler befindet sich in einer Abseitsstellung, wenn er der gegnerischen Torlinie näher ist als der Ball und der vorletzte Gegenspieler, einschließlich Torwart. Zudem muss er sich in der gegnerischen Feldhälfte befinden. Entscheidend ist exakt der Moment, in dem der Zuspieler den Ball trifft – und dass das Zuspiel von einem Mitspieler kommt.
  • Es zählen alle Körperteile, mit denen man ein Tor erzielen darf, also Fuß bis in die Schuhspitze und Kopf bis hin zur Nasenspitze. Hand und Arm hingegen nicht.
  • Bei Einwurf, Ecke und Abstoß gibt es kein Abseits.
  • Ein Regelverstoß liegt aber nur vor, wenn der im Abseits stehende Spieler aktiv ins Geschehen eingreift, also den Ball spielt, die Sicht eines Verteidigers behindert oder den Verteidiger angreift. Oder wenn er aus seiner Position einen Vorteil zieht, zum Beispiel einen Abpraller verwerten kann.

Die ersten drei Anforderungen kann die neue VAR-Technik selbstständig checken, für die letzte braucht es ein geschultes Schiedsrichterauge.

Wo sich der Ball befindet und was mit ihm geschieht, protokolliert dieser selbst – beziehungsweise das "Connected-Ball"-System von Kinexon und Adidas. Das Münchner Start-up, an dem auch BMW beteiligt ist, hat eine spezielle Sensoreinheit entwickelt, die wiederum Adidas so im Inneren seiner WM- und EM-Bälle verspannt hat, dass sich die Roll- und Flugeigenschaften des Spielgeräts nicht ändern. Das 14-Gramm-Kästchen, bestehend aus einem Ultrabreitbandsensor (UWB) und einem Bewegungssensor (inertial measurement unit, IMU), sitzt mittig im ledernen Rund.

Dabei funkt die UWB ihre Positionsdaten 100-mal pro Sekunde und die mit Beschleunigungs- und Neigungssensoren ausgestattete IMU 500-mal pro Sekunde an das ums Spielfeld platzierte Local Positioning System (LPS). Laut Kinexon kann damit die Position des Balls mit mindestens 10 Zentimeter Genauigkeit berechnet werden. Entscheidend für die Genauigkeit der Abseitserkennung ist, dass die Beschleunigungs- und Neigungssensoren den Abspielzeitpunkt unmittelbar anhand der Erschütterung messen und übermitteln. Damit entfällt das fehleranfällige visuelle Abschätzen anhand von Videobildern.

Die Bewegungssensoren sind so im EM-Fußball "Fußballliebe" aufgehängt, dass sie dessen Flugverhalten nicht beeinflussen.

(Bild: Adidas)

Die Spieler hingegen bekommen weder Sensoren eingepflanzt noch aufgeklebt, sondern werden mit optischen Trackingverfahren auf Schritt und Tritt verfolgt und bis in die Schuhspitzen vermessen. Dazu dienen die zwölf Kameras im Stadiondach, die die Szene aus unterschiedlichen Blickwinkeln aufzeichnen. Objekterkennungsalgorithmen vermessen anhand der Bilder 29 wichtige Körperpunkte der Spieler und bilden daraus künstliche Skelette, um Positionen zentimetergenau bestimmen und Bewegungen visualisieren zu können.

SkeleTrack von Hawk-Eye vermisst die Spieler über 29 Körperpunkte.

(Bild: Fifa)

Die Technik wurde von der Sony-Tochter Hawk-Eye entwickelt und unter dem Namen SkeleTrack auf der CES 2022 vorgestellt; an Entwicklung und Tests waren laut FIFA das MIT Sports Lab, die ETH Zürich sowie die Victoria University beteiligt. Unsere Fragen zu technischen Details von SkeleTrack ließen FIFA und Hawk-Eye unbeantwortet. Wie KI-gestütztes Gliedmaßentracking prinzipiell funktioniert und was man davon (nicht) erwarten kann, können wir aber anhand wissenschaftlicher Arbeiten recht gut nachvollziehen: Was die FIFA als "Limb Tracking" bezeichnet, firmiert darin in der Regel unter dem Fachbegriff Pose Estimation.

Prinzipiell lassen sich menschliche Gliedmaßen durch Wearables und aufgeklebte Sensoren schnell und präzise einfangen. Solche markergestützten Methoden bewähren sich schon seit Langem in Training und Diagnostik, eignen sich aber nicht für den flächendeckenden Einsatz in Wettbewerben: Man denke nur an den Aufwand, jeden Spieler jeder Mannschaft von Kopf bis Fuß mit Sensoren zu bepflastern – und dann auch noch sicherzustellen, dass diese unter allen Bedingungen einwandfrei funktionieren und die Sportler nicht einschränken. Fürs Spielertracking während des Wettkampfs kommen also nur rein optische Lösungen infrage.

Mit dem 2017 vorgestellten Framework OpenPose ließen sich erstmals die Bewegungen mehrerer Personen in Echtzeit tracken. Um die vielen einzelnen Gliedmaßen korrekt zusammenzufügen, ermittelt der Algorithmus nicht nur die Position von Hüften, Ellbogen, Knien et cetera, sondern auch deren Ausrichtung (unten).

(Bild: Zhe Cao et al.)

Und hier kommt endlich die KI ins Spiel: Gliedmaßen in 2D-Video-Frames zu lokalisieren, ist ein klassischer Fall für Deep-Learning-Verfahren, denn tiefe neuronale Netze lassen sich auf die Erkennung beliebiger Muster in Bildern trainieren: Anhand von Beispielbildern lernen die sogenannten Deep Convolutional Neural Networks (Deep CNN), wie Katzen, Autos und Menschen aussehen – oder eben deren Knie, Schultern, Hände und Füße.

Mithilfe von Confidence Maps (Heat Maps) lassen sich die zugehörigen Pixel im Bild auch automatisiert einfärben oder mit dem passenden Label beschriften, doch das allein reicht nicht für den Einsatz im Sport: Wer Positionen oder Bewegungsabläufe analysieren möchte, muss die isolierten Punkte algorithmisch zu einem funktionierenden Skelett verbinden, und zwar in jedem einzelnen Frame – und beim Fußball potenziell für jeden der 22 Spieler auf dem Feld, die sich beim Kampf um den Ball auch gegenseitig verdecken. Für solche Multi-Person-Probleme entstanden zwar nach und nach algorithmische Lösungen, die aber noch viel zu langsam für die meisten sportlichen Herausforderungen waren – geschweige denn in Echtzeit funktionierten.

Das änderte sich schlagartig mit dem Open-Source-Framework OpenPose (PDF), das Wissenschaftler der University of California, Carnegie-Mellon-Universität und Facebook Reality Labs 2017 vorstellten und 2018 maßgeblich erweiterten. Es war die erste 2D-Gliedmaßenerkennung, die mehrere Personen detailliert, zuverlässig und in Echtzeit erfassen konnte. Die enorme Geschwindigkeit gepaart mit einer robusten Erkennungsleistung erreichten die Entwickler mit einer cleveren Idee: Sie verabschiedeten sich von der bis dahin gebräuchlichen zweistufigen Herangehensweise (Top-Down-Strategie) und probierten es einfach genau andersherum.

So verarbeitet OpenPose ein Bild: Es lokalisiert Pixel, die mit hoher Wahrscheinlichkeit zu Gliedmaßen gehören (2. Bild, oben) sowie deren zugehörige Richtungsvektoren (Part Affinity Fields). Ein Graph-Matching-Algorithmus ermittelt anhand dieser Daten Stück für Stück (3. Bild) die anatomisch korrekten Verbindungen (rechts).

(Bild: Zhe Cao et al.)

Anstatt erst alle Personen im Bild zu lokalisieren und dann innerhalb der markierten Bereiche Kopf, Schultern, Ellbogen, Hüftgelenk, Knie, Füße et cetera zu suchen, lokalisiert OpenPose zunächst alle Gliedmaßen-Pixel im Bild inklusive ihrer Ausrichtung und versucht dann, die plausibelsten Verbindungen zwischen je zwei dieser Punktwolken zu ermitteln. Damit reduziert sich die Aufgabe auf ein klassisches mathematisches Zuordnungsproblem, nämlich das perfekte Matching von Graphen: Ziel dieses Graph-Matching ist es, jeden Punkt mit mindestens einem anderen zu verbinden. Dabei ist jede potenzielle Verbindung gewichtet, als optimales Konstrukt gilt das mit dem höchsten Gesamtgewicht. Dank geschickt gewählter Suchstrategien und Randbedingungen konnten die Forscher diese enorm anspruchsvolle Aufgabe in viele kleine Teilprobleme aufsplitten, die ein effizientes Näherungsverfahren löst.

Dass der Näherungsalgorithmus Skelette formt anstatt Spinnennetze oder Dreiecke und auch nicht versehentlich verschiedene Personen miteinander verschmilzt, ist kein Zufall: Dafür sorgen die oben erwähnten Richtungsvektoren, die zu jedem Gliedmaßen-Pixel berechnet werden und die Gewichtung der Kanten im Graph bestimmen. Auf Grundlage der Richtungsvektoren werden dann zum Beispiel Verbindungen zwischen Schulter und Ellbogen im Graph mit einem sehr hohen Gewicht versehen, Schulter-Knie hingegen mit einem sehr niedrigen. Weil der Algorithmus ein Konstrukt mit maximalem Gesamtgewicht bilden soll, bevorzugt er automatisch die anatomisch korrekten Verknüpfungen.

Dass OpenPose in Echtzeit zum Ergebnis kommt und die Rechenzeit nicht mit der Anzahl der Personen im Bild zunimmt, liegt an einigen cleveren Tricks: den Verzicht auf explizite Personenerkennung und eine geschickte Aufteilung des aufwendig zu verarbeitenden Graphs in kleine Häppchen (rechts).

(Bild: Zhe Cao et al.)

OpenPose-Entwickler Ginés Hidalgo wechselte 2019 übrigens als Research Engineer von der Uni zu Epic Games und arbeitet derzeit bei der Reality-Labs-Research-Abteilung des Meta-Konzerns.

Multi-Person-Echtzeit-2D-Algorithmen wie OpenPose bilden das Herzstück zahlreicher Anwendungen im Sport – wie eben auch der weitgehend automatisierten Abseitserkennung. Weil es sich um statistische Modelle handelt, die ihre Fähigkeiten anhand von Trainingsdaten ausgebildet haben, muss man sich aber auch deren systembedingter Schwächen bewusst sein: Gerade in strittigen, turbulenten Szenen, bei denen die Spieler hart am Rande der Abseitsregel operieren und sich gegenseitig verdecken, kann die Gliedmaßenerkennung auch versagen: zum Beispiel einen Fuß falsch zuordnen oder dessen Position falsch einschätzen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Ungünstige Lichtverhältnisse können die Erkennungsquote ebenso beeinflussen wie Verzerrungen in den Trainingsdaten: Es handelt sich eben streng genommen um Vorhersage- und nicht um Erkennungssysteme. Weil mehrere Kameraperspektiven analysiert und zu einem Gesamtbild verrechnet werden, lassen sich Fehlerquellen zwar minimieren, aber nicht komplett ausschalten.

Von vielen Fehleinschätzungen des Systems bekommen die Akteure auf dem Platz womöglich gar nichts mit. Denn wenn die SAOT Alarm auslöst, prüfen zunächst die Schiedsrichterassistenten am Monitor, ob die automatisch berechneten Linien und Markierungen plausibel sind. Nur bei positivem Ergebnis wird der Schiedsrichter auf dem Platz informiert und das Spiel unterbrochen.

Doch trotz der verbesserten Technik und der weitgehend im Hintergrund stattfindenden Überprüfung: Nach wie vor gibt es unklare, schwer zu beurteilende Szenen, die sich nicht innerhalb von 15 bis 30 Sekunden entscheiden lassen. Es dürfte also genügend Zeit und Stoff für angeregte Diskussionen bleiben.

In eigener Sache: c't bei WhatsApp

(atr)