Ansicht umschalten
Avatar von Rach- und Mach-Geschichten
  • Rach- und Mach-Geschichten

353 Beiträge seit 30.05.2024

Re: M + 1

GPT-4o wurde multimodal trainiert (mit Bildern, vermutlich auch Bildern von Kaffeetassen)

Zählt man die Nervenfasern zum menschlichen Cortex, so sind das ungefähr:

• 40 % S1 für Touch
• 40 % V1 für Vision
• 10 % A1 für Audition

Zerlegt man Vision noch in 25 % Pixel und 15 % Bewegung, dann ist GPT-4o erst zu 35 % multimodal. Da ist noch viel Luft nach oben zu den 100 % bei Menschen.

Bewerten
- +
Ansicht umschalten