Ansicht umschalten
Avatar von Whynodd
  • Whynodd

mehr als 1000 Beiträge seit 30.03.2007

Die Tragweite ist gewaltig

In der KI wachsen die Domänen Bild, Text, Audio, Video, Bewegung, Sensorik, Taktiles usw zusammen. Das ist toll. "Nach" Dall-e, Stable Diffusion etc kommt garantiert Video an der Reihe, mit Ton.

"Video von einem Mann, der ein Kippfenster öffnet."

Joa, und dann kommt ein Video raus. Der Sprung hin zur Ausführung der Tätigkeit kommt auch noch,

Es wird nicht mehr weit hin sein, dann geht sowas hier:

"Staubsauger, ich hab in der Küche Mehl verschüttet. Saug das auf. Pass auf die Legosteine im Wohnzimmer auf."

"Gartenbot, bitte ernte eine kleine Schüssel reife Johannisbeeren, bring sie auf den Küchentisch und zupfe das Unkraut rund um den Feldsalat."

"Assistant, bitte bringe mit mir französische Vokabeln und Sätze rund um das Thema Einkaufen bei"

"Sortiere und falte die Wäsche. Leg Sockenpaare zusammen."

"Homeassi, Schalte die Waschmaschine ein, wenn viel Ökostrom im Netz ist"

"Hol die Kinder und spiel mit denen Memory im Kinderzimmer. Oder macht ein Puzzle."

Wenn ein generelles Verständnis von Audio, Text usw "da" ist, kann ein Robo/Rechner imaginieren, was er tun soll, Schlüsse ziehen, seine Tätigkeit planen und auf Sinn prüfen, Infoquellen anzapfen und unklare Anweisungen durch Erfahrung aus seinem Lernschatz ergänzen. So wie Inpainting Lücken in der Bilddomäne füllt oder das Bild außen ergänzt.

Wenn ich dem dann noch etwas zeigen, beibringen oder vormachen kann, Jackpot!

"Komm mit, hier ist der Garten. Schau dich etwas um. Dort ist der Johannisbeerstrauch. Da, das hier ist eine kleine Schüssel, die sind in diesem Schrank."

Weit hergeholt? Vielleicht ein wenig, vielleicht auch nicht.

Bewerten
- +
Ansicht umschalten