Staumeldung durch KI-Bilder

Natürlich kann man morgens ins Web schauen, um sich ein Bild von der Verkehrslage zu machen. Oder man blickt auf diesen KI-Bilderrahmen neben der Tür: Der Raspberry Pi darin holt sich täglich per TomTom-API-Schnittstelle die aktuelle Fahrzeit ins Büro und lässt diese durch DALL-E in ein künstlerisches Bild verwandeln. Delphine und Düsenjäger auf dem Bild stehen für schnelles Durchkommen; erblickt man Buddha oder Schnecken, muss man mehr Zeit einplanen.

von Dirk Wahl

Kurzinfo

Bilder mit der generativen KI DALL-E per API-Zugriff mit Python generieren
Fahrzeitprognose per API von TomTom ermitteln
Display-Rahmen mit Bewegungsmelder und Raspberry Pi bauen

Checkliste

Zeitaufwand:

ab 2 Stunden

Kosten:

etwa 100 Euro; langfristig 2 US-Cent pro Bild

Programmieren:

Raspberry Pi OS aufsetzen, Pakete installieren, Python-Code anpassen

Material

Raspberry Pi 3B mit MicroSD-Karte 32 GB
HDMI-Kabel etwa 20 cm Länge
Bewegungssensor SR602 oder HC-SR501
Widerstand 10k
Drucktaster Schließer
Display mit möglichst quadratischem Seitenverhältnis, etwa ein altes 4:3-Notebook-Display
HDMI VGA Display Controller inklusive Stromversorgung für das Backlight, siehe Links
12V-Netzteil mit genügend Leistung für die Stromversorgung von Display und Raspberry Pi
12V-DC-DC-Step-Down-Converter für die 5-Volt-Spannungsversorgung des Raspberry
Bilderrahmen mit ausreichend Tiefe zum Einbau der Elektronik, groß genug für das Display

Alles zum Artikel im Web unter make-magazin.de/xz9d

Spätestens als der Papst in gefakter weißer Balenciaga-Jacke viral ging, konnte man sehen, wozu das von OpenAI entwickelte KI-Bildgenerierungsprogramm DALL-E in der Lage ist: aus einfachen Texteingaben beeindruckende Bilder mit genau dem gewünschten Inhalt erzeugen, die sowohl fotorealistisch aussehen können, aber auf Wunsch auch beispielsweise wie ein Gemälde von Vincent van Gogh.

Statt diese Texteingaben (oder Prompts, wie sie auch heißen) von Hand einzutippen, kann man sie auch von Programmen erzeugen und die Bilder über die Programmierschnittstelle (API) von OpenAI abrufen. Noch einen Schritt weiter geht man, wenn die Bilder-Prompts aus Live-Daten erzeugt werden, die man über Webservices oder andere APIs abruft, so wie in diesem Projekt. Konkret wird im Folgenden gezeigt, wie man mit relativ geringem Aufwand automatisch aus den Daten von TomTom die voraussichtliche Fahrzeit ins Büro ermittelt, daraus DALL-E ein kreatives Bild erzeugen lässt, das auf einem selbstgebauten Display-Rahmen erscheint, in dem auch der Raspberry Pi steckt, auf dem alle nötigen Skripte laufen. Das aktuelle Verkehrslage-Bild wird einmal am Tag passend zur Pendelzeit erzeugt, ein Bewegungsmelder schaltet das Display ab, wenn niemand davor steht. Nachts wird das ganze per Zeitschaltuhr herunter- und morgens wieder hochgefahren.

In diesem Artikel tasten wir uns vom ersten API-Testaufruf bis zum fertigen Rahmen in nachvollziehbaren Schritten heran, sodass sich Teile aus meinem Projekt auch für andere Vorhaben nutzen lassen, in denen KI-Bilder erzeugt werden. Denn das Prinzip lässt sich natürlich auf alle anderen Datenquellen übertragen, seien es Aktienkurse, Feinstaubwerte, der Netzwerk-Traffic im LAN oder die Zahl der Likes in Social Media. Dabei kann man mehrere Aspekte durchaus in einem Bild kombinieren: So lässt sich die Verkehrsanzeige mit wenigen Ergänzungen im Code mit der Darstellung der Wetterlage als Hintergrund kombinieren.

Natürlich muss man manchmal etwas Fantasie entwickeln, um das Bild richtig zu interpretieren – der DALL-E-Staumelder ist ein KI-Kunstprojekt, kein Präzisionsmessinstrument. Aber er ist jeden Tag ein schicker und manchmal überraschender Hingucker.

Start mit DALL-E

Um Bilder mit DALL-E zu generieren – sei es über die Web-Oberfläche oder per API – ist eine Registrierung bei OpenAI notwendig (alle Links in der Kurzinfo). Die Schritte zur Anmeldung hatten wir bei der ChatGPT-Schreibmaschine im vorletzten Heft ausführlich beschrieben, deshalb hier nur ganz kurz: Nach der Registrierung bei OpenAI kann unter „Personal/View API keys“ ein API-Schlüssel für die Kommunikation zwischen dem Raspberry Pi und DALL-E erzeugt werden. Bei der ersten Anmeldung bei OpenAI bekommt man initial ein in der Menge und zeitlich begrenztes Budget an Credits, es ist unter „Manage Account“ einsehbar. Für den API-Aufruf zum Erstellen der ersten Bilder reicht der Betrag anfangs gut aus. Will man die Visualisierung auf Dauer benutzen, muss man zahlen – mehr dazu steht im Kasten.

OpenAI-Account

Die ersten API-Zugriffe für DALL-E sind kostenlos. Später muss man pro erzeugtem Bild zahlen – eines in 1024 × 1024 Pixeln Auflösung kostet 2 US-Cent; kleinere sind etwas günstiger.

Möchte man hingegen DALL-E erst einmal per Texteingabe auf der Webseite von OpenAI ausprobieren, geht das leider nicht gratis: Hierfür muss man Credits kaufen, bei 15 US-Dollar für 115 Credits geht es los. Für jede abgesetzte Anfrage wird ein Credit abgezogen, auch wenn man sich dabei mehrere Bilder zum gleichen Prompt auf einmal erzeugen lässt. Solche Credits lassen sich allerdings nicht für API-Zugriffe benutzen (das käme zudem teurer pro Bild). Umgekehrt steht die Texteingabe auf der Webseite nicht zur Verfügung, nur weil man sich einen bezahlten API-Zugang eingerichtet hat.

Jedes Benutzerkonto bei OpenAI muss mit einer Telefonnummer verifiziert werden und pro Telefonnummer lassen sich maximal zwei Konten anlegen. Achtung: Nicht mehr benötigte Konten kann man offenbar nicht löschen! Offensichtlich möchte die Firma so verhindern, dass man sich mittels Wegwerf-Mail-Adressen von einem Gratis-Account zum nächsten hangelt. Und auch wenn man Credits und API-Zugänge einzeln und speziell für DALL-E bezahlen muss, hat man trotzdem einen globalen Benutzer-Account bei OpenAI. Heißt im Klartext: Wer mit seinem Konto schon mal testweise mit der ChatGPT-API rumgespielt hat, bekommt für DALL-E keine Test-Credits mehr, falls das länger als drei Monate her ist oder man die freien Credits im Wert von 5 US-Dollar aufgebraucht hat.

Jetzt aber her mit den Bildern: Gibt man DALL-E per API oder übers Eingabefeld der Website zum Beispiel „muppet“ als Prompt vor, generiert die KI ein paar nette Bilder nach dieser Vorgabe.

Ein-Wort-Prompts wie „muppet“ entlocken DALL-E Figuren vor weißem Hintergrund (Bilder links), detaillierte Angaben wie „professional photo of a happy muppet character, on a ship deck, high detail, 300mm telephoto lens” zaubern mehr Realismus (Bilder rechts).

Um aber ein wirklich gutes Bild zu bekommen, sollte man weitere Eingaben hinzufügen, die beispielsweise den Stil, den Hintergrund, Stimmung, Kamerawinkel und ähnliches beschreiben. Das ist inzwischen eine Kunst für sich, nennt sich „prompt design“ (manche sagen auch „prompt engineering“). Etliche YouTube-Videos zum Beispiel geben hierfür detaillierte Hinweise. Wir versuchen mal folgendes: „professional photo of a happy muppet character, on a ship deck, high detail, 300mm telephoto lens”. Schon besser, oder?

DALL-E per API

In meinem Display-Rahmen, den ich später zur Anzeige der Stau-Visualisierungen verwende, wurde ein Raspberry Pi 3B verbaut. Der Nachbau geht natürlich auch mit anderen Raspberry-Modellen mit WLAN; die im Folgenden gezeigten API-Zugriffe mittels Python funktionieren darüber hinaus von beliebigen anderen Systemen mit Netzzugang.

Ich habe erst einmal mit dem Pi Imager das Raspberry Pi OS (32-Bit) auf die SD-Karte aufgepielt (Links zum Download und Anleitungen siehe URL in der Kurzinfo) und dann anschließend die Karte in den Raspi gesteckt. Nach der initialen Konfiguration und dem Update der Programme sollte bei den „Einstellungen/Pi Konfiguration/Schnittstellen/VNC“ angeschaltet werden. Das hilft sehr, um den digitalen Rahmen später vom PC aus fernsteuern zu können. Rechts unten im Tray ist ein VNC-Icon, dort steht dann auch die IP-Adresse des Raspis. Das VNC-Programm für Windows gibt es zum kostenlosen Download (siehe Kurzinfo-Link).

Im nächsten Schritt wird das Python-Paket openai auf dem Raspi installiert:

pip install openai

Um als ersten Test ein Bild mit Python zu generieren, kopiert man den Python-Code im Kasten in das auf dem Raspberry Pi vorinstallierte Tool Thonny.

API-Test

import openai
openai.api_key = 'Eigener OpenAI-API-Key'
response = openai.Image.create(
  prompt='Style is monet, add a snail under water', 
  n=1, 
  size="256x256"
)
image_url = response['data'][0]['url']
print(image_url)

n ist hierbei die Anzahl der zu erstellenden Varianten, size gibt die Pixelgröße des Bilds an. Thonny gibt anschließend unten in der Shell den URL-Link zum Ergebnis aus, das man dann über den Browser abrufen kann.

Soll nun das Bild auf dem Desktop gesichert werden, ergänzen wir den Code unten um:

import urllib.request
urllib.request.urlretrieve(
image_url, 
    "/home/pi/Desktop/Bild.jpg")

Das fertige Programm kann man nun auf dem Desktop etwa unter dem Namen Dalle_generate.py speichern. Um das Programm später automatisch ausführbar zu machen, setzt man per Terminaleingabe die nötigen Rechte:

chmod +x 
   /home/pi/Desktop/Dalle_generate.py

Anfrage per Zufall gestalten

Damit DALL-E abwechslungsreiche Bilder generiert, können dem Aufruf per Zufall Parameter für das dargestellte Objekt, den Stil oder die Umgebung mitgegeben werden. Das erweiterte Programm Dalle_generate.py sieht dann aus wie im gleichnamigen Kasten. Das Programm gibt es auch über den Link in der Kurzinfo zum Download.

Dalle_generate.py

import random
pic_style = random.choice(["photo realistic", "superhero comic", "Picasso", "Claude Monet", "Vincent van Gogh", "Rembrandt"])
pic_object = random.choice(["panda", "elephant", "frog", "buddha", "star wars character"])    
pic_location = random.choice(["on a ship deck", "in space", "on times square", "on the beach", "under water"])
import openai
openai.api_key = 'Hier den eigenen OpenAI API Key eintragen' 
response = openai.Image.create(
  prompt= 'Style is ' + pic_style + ', add a ' + pic_object + ' ' + pic_location,
  n=1,
  size="1024x1024"
)
image_url = response['data'][0]['url']
print(image_url)
import urllib.request
urllib.request.urlretrieve(image_url, "/home/pi/Desktop/Bild.jpg")

Fahrzeitprognose

Jetzt sollen aber keine zufälligen Bilder erzeugt werden, sondern solche, die die voraussichtliche Fahrzeit auf der morgendlichen Pendelstrecke symbolisieren. Diese Darstellung ist sicher nichts für Menschen, die Wert auf exakte Angaben legen. Zahlen oder Buchstaben kann DALL-E nämlich (noch) nicht sinnvoll ausgeben. Stattdessen sieht mein Programm deshalb Schwellwerte für die Fahrzeit vor (unter 15 Minuten, unter 20 etc.) und hat für jedes Intervall zwischen Schwellwerten eine Liste von Objekten, aus denen es per Zufall eines wählt, das es dann zur Bildgenerierung an DALL-E schickt. Ist beispielsweise die ermittelte Fahrzeit von unter 15 Minuten für den Weg ins Büro morgens recht kurz, dann wählt das Programm aus der Liste z.B. einen Delphin. Werden hingegen lange 27 Minuten prognostiziert, dann kann das Bild auch mal eine Schnecke zeigen (siehe Listing Intervalle).

Um die aktuelle Fahrzeit zu ermitteln, werden die GPS-Koordinaten vom Start- und Zielpunkt an TomTom geschickt. Für die Kommunikation mit TomTom wird wiederum ein API Key benötigt, den man kostenlos erstellen kann (Link in der Kurzinfo). Außerdem braucht man noch die genauen GPS-Koordinaten in dezimaler Schreibweise, auch dafür haben wir bei den Links einen Webdienst im Angebot.

Ein einfaches Programm zum Testen des API-Zugriffs zeigt der Kasten TomTom.py.

TomTom.py

#!/usr/bin/python 
# -*- coding: utf-8 -*- 
import configparser 
import requests 
import json 
import sys 
import time 
import datetime 
from urllib.request import urlopen 
apiURL = "https://api.tomtom.com/routing/1/calculateRoute/" 
apiKey = "Eigener TomTom-API-Key" 
# Start- und Zielkoordinaten:
sourceLat = xx.vvvvvvv 
sourceLon = yy.zzzzzzz 
destLat = xx.vvvvvvv 
destLon = yy.zzzzzzz 
tomtomURL = "%s/%s,%s:%s,%s/json?key=%s&traffic=true" % (apiURL,sourceLat,sourceLon,destLat,destLon,apiKey) 
getData = urlopen(tomtomURL).read() 
jsonTomTomString = json.loads(getData) 
print(jsonTomTomString) 
totalTime = jsonTomTomString['routes'][0]['summary']['travelTimeInSeconds']/60
print ("Fahrzeit: ", round(totalTime,1), " Minuten.")

Jetzt wird die ermittelte Fahrzeit totalTime durch die Schwellwerte ins richtige Intervall sortiert und aus der jeweiligen Liste zufällig ein entsprechendes Objekt ausgewählt. Dann genügt morgens ein Blick auf den digitalen Rahmen, um zu sehen, ob die Fahrt ins Büro heute flott geht oder mal wieder länger dauert. Dabei ist natürlich jedem selbst überlassen, welche und wie viele Objekte man definiert – Hauptsache, man behält sein eigenes System im Kopf.

Intervalle

import random
if totalTime <= 15:
  pic_object = random.choice(["dolphin", "fighter jet"])
if 15 < totalTime <= 20:
  pic_object = random.choice(["dog", "star wars villain"])
if 20 < totalTime <= 25:
  pic_object = random.choice(["panda", "muppet"])
if totalTime > 25:
  pic_object = random.choice(["buddha", "snail"])

Den so ergänzten Code von Dalle_generate.py gibt es über den Link in der Kurzinfo zum Download.

Delphine stehen für schnelle Fahrt, Star-Wars-Schurken für nur wenig Verzögerung unterwegs, Schnecken symbolisieren Stau. Den Stil variiert DALL-E zufällig, unter anderem zwischen van Gogh, Superhelden-Comic und Monet.

In den Rahmen bringen

Die Visualisierung der aktuellen Fahrzeit funktioniert jetzt soweit. Nun muss das ganze noch alltagstauglich verpackt und automatisiert werden.

Aktuell kann DALL-E nur quadratische Bilder mit den Größen "256x256", "512x512" oder "1024x1024" Pixel erzeugen. Das erklärt auch, warum ich in meinem Bilderrahmen ein altes 4:3-Display verbaut habe – bei einem 16:9-Display bliebe zu viel ungenutzte Bildfläche links und rechts am Rand. Und außerdem gibt es bei eBay solche alten Laptop-Displays schon für kleines Geld, falls die Bastelkiste keines mehr zu bieten hat.

Zum Ansteuern des Displays wird dann ein spezifisches HDMI-VGA-Display-Controller-Board für um die 25 Euro benötigt. In der Regel laufen die Display-Controller-Boards mit 12V, die Stromversorgung des Raspi aber nur mit 5V, sodass noch ein DC-DC-Step-Down-Converter zum Einsatz kommt.

Die Komponenten meines digitalen Bilderrahmens von hinten gesehen

Für die Anzeige auf dem Display benötigen wir ein weiteres Skript, das auf dem Desktop unter dem Namen Dalle_display.py gespeichert wird (siehe Kasten). Hier sorgt pygame für die Anpassung der Bildgröße an das Display. Wie zuvor wird dieses Programm mit

chmod +x 
     /home/pi/Desktop/Dalle_display.py

ausführbar gemacht. Führt man das Skript in Thonny über Run aus, sollte nun das zuvor auf dem Desktop gespeicherte Bild für fünf Sekunden als kleines Fenster mit 300 mal 300 Pixeln auf dem Display angezeigt werden.

Dalle_display.py

import time
import pygame
from pygame.locals import*
pygame.init()

img = pygame.image.load('/home/pi/Desktop/Bild.jpg')
img = pygame.transform.scale(img, (300, 300))

w = 300
h = 300
screen = pygame.display.set_mode((w, h))

t_end = time.time() + 5
while time.time() < t_end:
    screen.blit(img,(0,0))
    pygame.display.flip()
pygame.display.quit()

Bewegungsmelder und Button

Wenn das soweit funktioniert, wird der Bewegungsmelder eingebaut (Anschluss an GPIO 23), damit das Display nur angeht, wenn jemand am Rahmen vorbeiläuft. Den HDMI-Ausgang am Raspi schaltet man durch

vcgencmd display_power 0

aus und durch

vcgencmd display_power 1

an. Der Befehl funktioniert allerdings erst nach einer Konfigurationsänderung mittels

sudo nano /boot/config.txt

In dieser Datei ersetzt man den Eintrag

dtoverlay=vc4-kms-v3d

durch

dtoverlay=vc4-fkms-v3d

Danach ist ein Reboot fällig.

Bewegungsmelder gibt es auch kleiner als den allgemein bekannten HC-SR501 (links). Hier noch ein AM312 (Mitte) und der im Rahmen verbaute SR602 (rechts).

Ergänzt habe ich auch noch einen Button (Anschluss an GPIO 24) zum manuellen Generieren eines neuen Bilds, falls das automatisch erzeugte mal wirklich gar nicht gefällt. Dazu drückt man während der Bildanzeige auf den Taster und das Programm Dalle_generate.py wird als Unterprozess aufgerufen und damit ein neues Bild erzeugt.

Den vollständigen Code dieses Setups gibt es über den Link in der Kurzinfo zum Download. Es empfiehlt sich, die Anzeigedauer erstmal kürzer als die dort vorgesehenen 60 Sekunden einzustellen, und sich von den 300 Pixeln Kantenlänge sukzessive an die optimale Größe und Position des Bilds auf dem Display ranzutasten (mehr dazu in den Kommentaren im Code).

Autostart

Zum automatischen Starten des Display-Programms wird PM2 genutzt, ein Prozessmanager für Node.js. Dazu sind im Terminal ein paar Installationen fällig (nodejs, npm und schließlich pm2 selbst):

sudo apt update  
sudo apt install nodejs
sudo apt-get install npm
sudo npm install pm2 -g

Weil ich meinen Rahmen nachts mittels Zeitschaltuhr abschalte, muss dafür gesorgt werden, dass PM2 beim Neustart wieder läuft:

pm2 startup

Zum Schluss muss auch noch ein Pfad gesetzt werden, wie von PM2 vorgegeben (alles in eine Zeile tippen oder vom Terminal kopieren):

sudo env PATH=\$PATH:/usr/bin 
  /usr/lib/node_modules/pm2/bin/pm2 
  startup systemd -u pi --hp /home/pi

Anschließend mit reboot neu starten und das Display-Programm bei PM2 registrieren:

pm2 start
    /home/pi/Desktop/Dalle_display.py

Achtung: das Display-Programm wird jetzt gestartet und setzt das Display sofort auf display_power 0. Damit man wieder etwas sieht, kurz den Bewegungsmelder aktivieren und während der Bildanzeige irgendeine Taste drücken. Damit wird das Programm in PM2 erst einmal gestoppt.

Noch Abspeichern, damit nach einem Boot das Programm wieder automatisch gestartet wird:

pm2 save

Das Display-Programm läuft nun immer im Hintergrund und reagiert auf die Bewegung und den Button.

Mit pm2 list kann man sehen, ob das Programm aktuell läuft, und, falls mehrere Programme in PM2 registriert sind, unter welcher ID (siehe Screenshot). Der aktuelle Status von Dalle_display ist dort stopped. Starten geht mittels:

pm2 start 0

Der Prozessmanager PM2 zeigt den Status und die ID der Prozesse – hier hat Dalle_display die ID 0. Diese ist wichtig, falls man es mal unterbrechen oder neu starten muss.

Bilder holen mit Crontab

Damit der Raspi jeden Morgen ein neues Bild erzeugt, speichern wir per Terminal einen Eintrag in Crontab:

crontab -e

Ganz unten hinein kommt dann die neue Zeile (in einer Zeile eintippen):

15 8 * * * python 
  /home/pi/Desktop/Dalle_generate.py

Nach speichern (Ctrl+O) und verlassen (Ctrl+X) läuft nun jeden Tag um 8:15 Uhr das Python-Skript Dalle_generate.py. Das ist für mich genau rechtzeitig, bevor es morgens ins Büro geht.

Und jetzt: Das Wetter

Falls nun im Hintergrund noch die Wettervorhersage auf dem Bild erscheinen soll, kann man diese bei OpenWeatherMap (OWM) per API abrufen (siehe Link in der Kurzinfo). Das läuft ähnlich wie bei TomTom, also erst registrieren und dann den eigenen API-Key erzeugen.

Wetter !!!2spaltig, falls Print

import requests 
api_key = "Hier den eigenen OWM API-Key eintragen" 
root_url = "http://api.openweathermap.org/data/2.5/forecast?" 
# Name des Ortes für die Vorhersage → siehe Orte bei OWM
city_name = "Munich" 
# url für den API-Aufruf zusammenstellen
url = f"{root_url}appid={api_key}&q={city_name}&cnt=3" 
r = requests.get(url) 
#print(r.json()) 
data = r.json() 
city_name = data["city"]["name"]; 
# Vorhersagewerte einlesen. [1] = in 6 Stunden
dt = data["list"][1]["dt"]; 
temp = str(data["list"][1]["main"]["temp"]) 
pressure = data["list"][1]['main']['pressure'] 
humidity = data["list"][1]['main']['humidity'] 
descr = data["list"][1]['weather'][0]['description'] 
wind = str(data["list"][1]['wind']['speed'])

Von den zurückgelieferten detaillierten Wetterdaten wird für mein DALLE-E Bild nur die Variable descr für die Beschreibung der Wetterlage verwendet; wer möchte, kann aber andere Daten ins Bild einfließen lassen, der Kreativität sind hier kaum Grenzen gesetzt. Der komplette Code von Dalle_generate.py inklusive Wettervorhersage ist ebenfalls bei den Downloads hinterlegt.

Schauen wir mal was der Rahmen heute morgen sagt (siehe Titelbild dieses Artikels): Aha, einiger Stau und leichte Bewölkung. Dann mal los! —pek