Warten auf die KI
Ich habe einen virtuellen Server in der Cloud angemietet, um mehr Leistung für KI-Modelle im Ollama-Framework zu haben. Doch die Verbindung bricht ständig ein.
Ich habe einen virtuellen Server in der Cloud angemietet, um mehr Leistung für KI-Modelle im Ollama-Framework zur Verfügung zu haben. Der Verbindungsaufbau aus Python heraus zu Ollama in der Cloud ist aber mitunter zu kurz, sodass es zu Verbindungsabbrüchen kommt. Wie kann ich das Timeout anpassen?
Die Klasse OllamaLLM aus der Python-Bibliothek langchain-ollama verwendet standardmäßig den HTTP-Client aus der Python-Bibliothek httpx, um das Ollama-Framework mit der KI zu kontaktieren. Der httpx-Client sieht weitreichende Konfigurationsmöglichkeiten für Timeouts vor. Um diese anzupassen, verwenden Sie ein Objekt httpx.Timeout, das Sie als Parameter der OllamaLLM-Instanz mitgeben:
from langchain_ollama import OllamaLLM
import httpx
timeout=httpx.Timeout(connect=15.0, read=5.0, write=5.0, pool=5.0)
llm_inst = OllamaLLM(model='deepseek-r1:1.5b', base_url=sys.argv[1], temperature=0.6, client_kwargs={'timeout': timeout} )
Dabei müssen Sie alle vier Timeouts explizit festsetzen: für den Verbindungsaufbau (connect), das Schreiben und Lesen in Socket-Verbindungen (read, write) sowie für die Zuteilung einer Ressource aus dem HTTP-Verbindungs-Pool (pool). Standard sind jeweils 5 Sekunden. Das Beispiel zeigt, wie Sie die Zeit für den Verbindungsaufbau auf 15 Sekunden verlängern.
(mid)