Quadkopter lernt in Sekunden Fliegen durch Curriculum-Lernen
Wissenschaftler bringen einem Quadkopter das Fliegen bei. Das Training dauert durch eine optimierte Curriculum-Methode nur ein paar Sekunden.
Wissenschaftlern des Agile Robotics and Perception Labs der New York University ist es gelungen, mithilfe von Deep Reinforcement Learning (RL) einer Mini-Drohne das Fliegen beizubringen – inklusive stabilem Schwebeflug bei wechselnden Windverhältnissen und während spezieller Figuren. Der gesamte Lernprozess dauert lediglich 18 Sekunden, kürzer als der Kompilierungsprozess und das Einspielen der Firmware in die Drohne.
Das Training findet in einer Simulation auf einem Apple MacBook mit M-Prozessor statt. Die Forschenden nutzen die GPU des Rechners dazu, um damit einen sehr schnellen Multirotor-Dynamiksimulator laufen zu lassen. Dieser ermöglicht es, fünf Monate Flug pro Sekunde zu simulieren, wie die Forscher in dem wissenschaftlichen Paper "Learning to Fly in Seconds" aufzeigen, der auf Arxiv im Preprint erschienen ist.
Um die Simulation so schnell hinzubekommen, bedienen sich die Wissenschaftler mehrerer Tricks. Anstatt das Training immer weiter zu verfeinern, sodass im Ergebnis das System nur noch fĂĽr den Flug in einer Simulation verwendet werden kann, ziehen die Forscher vorher einen Schlussstrich und stoppen das Training, sobald es gut genug fĂĽr eine Verwendung in der realen Welt ist.
Curriculum-Methode
Diese Strategie bezeichnen die Forscher als "Curriculum", einer Art Lehrplan für Verstärkendes Lernen. Der Lehrplan beginnt mit einer weniger starken Einstellung. Die "Strafen" werden dann schrittweise erhöht, um das System so robuster und zuverlässiger zu machen. Das sei eine besonders effiziente Methode, denn das Training muss nur noch so lange durchgeführt werden, bis das gewünschte Ergebnis erzielt ist – nicht mehr und nicht weniger.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Zusätzlich optimierten die Wissenschaftler die Geschwindigkeit des Trainings, indem sie die RL-Algorithmen auf Effizienz trimmten und die Hardwarebeschleunigung des verwendeten MacBooks der M-Serie ausnutzten. Der effiziente Simulator und die lehrplangesteuerte Sample-Effizienz der RL-Pipeline führen zusammengenommen zu einer sehr schnellen Trainingszeit von lediglich 18 Sekunden. Bei der im Video verwendeten Drohne dauerte es aber noch einige Minuten.
Das System übertrugen die Wissenschaftler auf einen herkömmlichen Open-Source-Quadkopter, der quelloffen ist und mit neuer Firmware bestückt werden kann. Die von den Forschern verwendete, 27 g leichte Mini-Drohne kostet rund 200 US-Dollar. Das System lässt sich allerdings auch auf andere, größere und teurere Drohnen oder selbst gebaute Quadkopter anwenden. Die Trainingszeit bleibe dabei jedoch weitgehend gleich. Der von den Forschern verwendete Quadkopter konnte so einen stabilen Schwebeflug auch bei wechselnden Windverhältnissen ausführen und vorgegebene Flugfiguren genau ausführen.
Die Forscher arbeiten nun an einer Integration des Systems in den Open-Source-Autopiloten für Drohnen PX4. Der Autopilot wird gerne für kleinere, autonome Drohnen verwendet. Die Wissenschaftler wollen das System auch so weiterentwickeln, dass es sich an unterschiedliche Umgebungsbedingungen anpassen kann. Es soll dann auf unterschiedliche Arten von Drohnen laufen und sie ansteuern können.
(olb)