GPT-4o wurde multimodal trainiert (mit Bildern, vermutlich auch Bildern von Kaffeetassen)
Zählt man die Nervenfasern zum menschlichen Cortex, so sind das ungefähr:
• 40 % S1 für Touch
• 40 % V1 für Vision
• 10 % A1 für Audition
Zerlegt man Vision noch in 25 % Pixel und 15 % Bewegung, dann ist GPT-4o erst zu 35 % multimodal. Da ist noch viel Luft nach oben zu den 100 % bei Menschen.