Ansicht umschalten
Avatar von Whynodd
  • Whynodd

mehr als 1000 Beiträge seit 30.03.2007

A man and a goat..

A man and a goat are on one side of the river. They have a boat. How can they both go across?

ChatGPT:
Both the man and the goat can cross the river together by following these steps:
The man and the goat get into the boat.
The man rows the boat across the river with the goat.
They both get out of the boat on the other side.
This way, both the man and the goat will be on the other side of the river together.

Hä? Das ist doch gut gelöst. Auf deutsch: Eine Frau und ihr Hund stehen am Rhein... geht auch.

Dass graphische Fähigkeiten (also Räumliches) nicht funktionieren, liegt meinem Verständnis nach darin begründet:
Diese Textsabbeler werden mit Symbolischem, also TEXT und CODE trainiert. Umwege und Ausbrechen über Bilder-KI's, aber dem Arbeiten auf Text als gemeinsamer Nenner, sind nur eine Krücke. Diese LLM's sind blinde, gefüh- und gehörlose Text-Savants und können somit nur über "Umwege" ein bisschen was an Code generieren, der etwas mit Geometrie oder Bildlichem/Räumlichen zu tun haben könnte.

Verwandte Fragen: Generiere eine Ascii-Art Sketch Draufsicht oder Grundriss von einem Flughafen, Zoo, Mietwohnung. Das muss schief gehen. Bzgl Räumlichem muss ein LLM failen. Mit Blinden kann man nicht über Farben reden. Der kann höchstens auf gesprochene oder symbolische Anleitung hin die Farbe 3 mit Farbe 5 im Wassermalfarbkasten mischen und muss darauf vertrauen, dass das dann ein dunkles Grün sein soll und dass viele Bäume so ne Farbe haben. Für den ist das alles angeblich.

LLM's failen ja auch bei zeitlichen Zusammenhängen. Die können nur Wechseltextsprech. Betonung, Sprechpausen, ins Wort fallen, das Gespräch von alleine 1min später wieder aufnehmen, das geht nicht..
Ein LLM kann das auf Anfrage hin nur simulieren: "füge ... ein wenn du in der Rede eine Sprechpause machen würdest und hebe betonte Wörter oder Satzteile mit (!)ein Wort(!) hervor."

Das wird sich erst ändern, wenn LLM's oder Vergleichbare von Text auf mehr Modalitäten aufgebohrt und trainiert werden, mit mehr Arealen im Netz, die für mehr In- und Output"arten" und deren Verarbeitung zuständig sind. Dazu gehört natürlich mehr Trainingsmaterial als nur Text. Beispielsweise Videomaterial von Alltagssituationen zusammen mit Ton, Geometrievorlesungen mit Bild, ein Waldspaziergang, Konzerte, ein POV-Video von einem Büromenschen, von einem Supermarktkassierer und so weiter.. Natürlich möglichst unverfälscht und ungefiltert. Daran wirds auch kranken. Denn wenn es soweit ist, wird der ganze Youtube-Fundus da drauf losgelassen..

Bewerten
- +
Ansicht umschalten