DeepSeek unzensiert (und lokal)

DeepSeek ist qualitativ hochwertig, aber leider zensiert und datenschutztechnisch fragwürdig. c't 3003 versucht, das vollständige Modell lokal laufen zu lassen.

73

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

14.02.2025, 17:19 Uhr

Lesezeit: 25 Min.

c't Magazin

Von

Jan-Keno Janssen

Dass das kostenlose KI-Sprachmodell DeepSeek gute Arbeit leistet, ist inzwischen allgemein bekannt. Allerdings herrscht Skepsis in Sachen Datenschutz und Zensur. c't 3003 will nun wissen: Kann man DeepSeek in der gleichen Qualität wie auf deepseek.com auf eigener Hardware laufen lassen? Ohne Zensur und ohne persönliche Daten auf chinesischen Servern?

heise+-Artikel: So lassen Sie DeepSeek lokal auf Ihrem Computer laufen

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, ich lasse die komplette, also nicht verkleinerte, DeepSeek-R1-KI bei mir lokal laufen. Oh ja, das Ding verbraucht gerade 709 GByte RAM. Wie ich das mache, kommt gleich.

Warum ich das mache? Weil euch das Thema DeepSeek offenbar sehr interessiert und vor allem das Thema, DeepSeek lokal laufen zu lassen. Viele von euch vertrauen der App beziehungsweise dem chinesischen DeepSeek-Server nicht so richtig. Und ja, wie es scheint, ist das Misstrauen nicht so ganz aus der Luft gegriffen. Aber das Tolle ist ja, die DeepSeek-Macher haben die Sprachmodelldaten offen ins Netz gestellt. Man kann das Ding also lokal laufen lassen.

Also einfach auf dem Laptop starten, fertig? Ja, nee. Wenn ihr DeepSeek in der Qualität laufen lassen wollt, in der das online auf chat.deepseek.com beziehungsweise in der Android- oder iOS-App läuft, braucht ihr zum Beispiel 8 Nvidia-H200-Profi-GPUs. So ein System kostet mindestens 300.000 US-Dollar. Na ja gut, habe ich leider nicht in meinem c't-3003-Budget. Aber mich hat es trotzdem brennend interessiert, ob das wirklich möglich ist, die wirklich sehr guten DeepSeek R1- und V3-Modelle lokal laufen zu lassen – also dass man wirklich die gleiche Qualität bekommt wie online auf deepseek.com.

Ich will hier jetzt niemandem Betrügerei oder so vorwerfen, aber ich wollte einfach nachweisen, ob das wirklich so ist – also dass die frei verfügbaren DeepSeek-Weights wirklich genau das bieten, was DeepSeek in der Cloud verspricht. Genau das seht ihr in diesem Video. Und ich erkläre euch auch, wie ihr mit deutlich weniger als 300.000 US-Dollar das Ding in voller Qualität zum Laufen bekommt. Oder zumindest ansatzweise.

Ich zeige euch hier auch anschaulich, warum Aussagen wie "So lasst ihr DeepSeek auf eurem Raspberry Pi laufen" zumindest missverständlich sind. Und ganz wichtig: In diesem Video seht ihr auch, ob die lokalen Varianten weniger zensiert sind als DeepSeek im Netz. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei …

Ja, noch mal ganz kurz: Der KI-Chatbot DeepSeek hat in den letzten Wochen richtig Welle gemacht und Aktienkurse gecrasht. Wir hatten dazu ja schon ein Video gemacht. Was für mich das Relevanteste ist: Mit DeepSeek gibt es zum ersten Mal Sprachmodelle, die wirklich ernsthaft mit ChatGPT von OpenAI oder Claude von Anthropic mithalten können. Es gab immer mal wieder ordentliche offene Sprachmodelle, zum Beispiel die LLaMAs von Meta, die okay waren, aber so ganz konnten die meiner Meinung nach nicht mit der kommerziellen Konkurrenz mithalten. DeepSeek halt jetzt erstmals schon.

Und das ist ja wirklich ein riesiger Unterschied: Ob man jetzt seine Prompts in eine Blackbox in die Cloud reinwirft – also auf chatgpt.com oder in die ganzen Apps – und niemand so richtig weiß, was da auf den Servern in den USA oder China oder sonst wo damit passiert. Oder ob das wirklich komplett lokal auf meiner eigenen Hardware stattfindet. Womöglich nicht mal mit Internetzugang nach außen. Das gilt natürlich besonders, wenn man eine Firma und schützenswerte Firmendaten hat. Kann ja durchaus praktisch sein, so ein LLM für Firmensachen.

DeepSeek hat zwei kompetente Modelle: Einmal das normale, das heißt V3, und einmal das Reasoning-Modell, das erst mal nachdenkt, bevor es eine Antwort gibt. Das heißt R1. R1 braucht länger beim Antworten, ist aber besonders bei mathematischen, technischen, programmiermäßigen Fragen besser. Braucht halt nur länger.

Das Ding ist halt nur: Beide DeepSeeks brauchen immens fette Hardware. Empfohlen sind zum Beispiel 8 × H200-GPUs. Das kostet dann mindestens 300.000 US-Dollar. Und das ist auch keine Hardware, die man sich einfach mal unter den Schreibtisch stellt, weil super laut, wird extrem heiß, braucht eine Klimaanlage und so weiter und so weiter. Das gilt leider auch für die meiste Server-Hardware.

Hat man so etwas nicht, gibt es zwei Alternativen: Entweder man lebt mit geringerer Intelligenz und lässt ein heruntergedummtes Modell auf kleinerer Hardware laufen. Oder man nimmt das unveränderte Modell und lässt es statt auf teuren GPUs auf vergleichsweise günstigen CPUs laufen – also CPUs und normaler RAM statt GPUs und VRAM.

Das Problem ist allerdings: LLMs laufen deutlich besser auf GPUs. Schon alleine deshalb, weil der Speicher auf GPUs eine viel höhere Bandbreite hat als normaler Arbeitsspeicher. Die Consumer-Grafikkarte mit dem zurzeit höchsten Speicherausbau ist die Nvidia RTX 5090. Die hat aber nur schlappe 32 GB Speicher. Kann man im Moment auch nicht richtig kaufen. Kostet über 2000 Euro. DeepSeek braucht so 720 GB. Also bräuchte man 23 von diesen Grafikkarten. Und ich sag mal: Auf mein Mainboard passen keine 23 Grafikkarten.

Also bleibt nur die CPU als Alternative. Aber wir brauchen halt mindestens ungefähr 720 GB RAM. Und normale Büro- oder Gaming-PCs haben nur vier RAM-Slots. Es gibt RAM-Riegel mit maximal 64 GB. Das ergibt 256 GB bei Consumer-Desktop-PCs. Also braucht man eine Workstation oder ein Server-Mainboard. Server-CPUs können mehr RAM anbinden, und die Boards haben auch mehr Slots.

Hier habe ich mal was zusammengeklickt mit 768 GB. Da komme ich auf 5870 Euro. Auch viel Geld natürlich, aber deutlich billiger als GPUs. Oder man guckt mal gebraucht: Hier eine alte Workstation mit 768 GB RAM für 2700 Euro.

Unser Server mit 1,5 TByte RAM

Ja, und ich hatte dann so überlegt, so etwas zu besorgen für dieses Video hier, um meinen DeepSeek-Test zu machen. Ich also so am Rumüberlegen. Dann sagt mein Kollege Christof Windeck, der übrigens einen guten Podcast über CPUs macht – ist unten in der Beschreibung verlinkt: "Hey, nimm doch einfach den AMD-Epyc-Server, den wir hier bei uns stehen haben. Den brauchen wir nur manchmal, um neue Server-CPUs zu testen. Der hat ja 1,5 TB RAM." Und ich so: "What?" Okay, also, ich arbeite schon sehr viele Jahre bei c't, aber dass da so etwas existiert, das wusste ich noch nicht. Naja, ich hatte dann jedenfalls schnell das Root-Passwort und habe dann losgelegt. Hier seht ihr die Inxi-Ausgabe: Also zwei AMD-Epyc-9754 CPUs mit jeweils 128 Kernen und, wie gesagt, 1,5 TB DDR5-Speicher mit 4800 Megatransfers pro Sekunde (DDR5-4800).

Benutzt habe ich als Betriebssystem Ubuntu Server und angezapft habe ich die LLMs mit Ollama. Das hat sich so ein bisschen als die Standard-Software für LLMs für Nicht-Profis herauskristallisiert. Und weil Ollama nur auf der Kommandozeile läuft, habe ich mit Open WebUI noch dieses fancy Web-Interface dazu installiert. Damit kann man so ein lokales LLM auch mehreren Leuten im eigenen Netz zur Verfügung stellen, und zwar auch Leuten, die nicht so nerdy drauf sind wie wir. Denn OpenWebUI ist genauso einfach zu bedienen wie ChatGPT oder chat.deepseek.com.

Wie man Ollama und Open WebUI installiert, zeige ich euch am Ende des Videos. Ja, aber jetzt erst mal die große Frage: Wie läuft denn DeepSeek nun? Ist das so gut wie in der Cloud? Deshalb erst mal in Ollama laden.

Und das geht so, dass man auf ollama.com geht und da dann in der Library die verfügbaren LLMs sieht. Ja, hier ist DeepSeek R1. Dropdown-Menü auf. Ja, 671 Milliarden Parameter. Sieht richtig aus. So viele Parameter hat das Modell. Aber hä? 404 Gigabyte? Ist das nicht ein bisschen wenig? Ah, okay. Da steht Q4_K_M. Das bedeutet auf 4-Bit quantisiert, obwohl DeepSeek eigentlich normalerweise mit 8-Bit arbeitet. Was übrigens schon sehr sparsam ist, denn normalerweise liegen LLM-Daten als FP16 vor, also als Gleitkommazahlen mit 16 Bit.

Die DeepSeek-Weights sind FP8, also 8-bittige Gleitkommazahlen. Ist schon mal viel sparsamer. Das Ding ist jetzt aber, dass Ollama keine Gleitkomma-Weights unterstützt. Deshalb muss ich die Q8-Variante benutzen, die vereinfacht gesagt einfach eine Umrechnung der Gleitkommazahlen darstellt. Ich könnte jetzt mal auf den Unterschied zwischen INT8 und Q8 eingehen. Ah, ich glaube, das wird mir jetzt hier ein bisschen zu viel Informatik-Vorlesung.

Wichtig ist: Die Q8-Daten, die ich von den R1- und V3-DeepSeek-Modellen verwende, sind genauso groß wie die originalen FP8-Daten, nur eben umgerechnet. Wenn ihr jetzt sagt: "Hä, warum hast du denn nicht die Original-Weights verwendet? DeepSeek schreibt doch, was man da für Software einsetzen kann." Ja, da gibt es sieben Möglichkeiten. Aber laut meiner Experimente unterstützen die entweder nur GPUs und keine CPUs oder sie unterstützen im CPU-Modus kein FP8. Wenn ihr einen Tipp habt, gerne in die Kommentare schreiben.

Der Test: Wie gut läuft DeepSeek lokal?

Ja, aber dann lief es auf jeden Fall: DeepSeek in Q8 mit Ollama. Laut Liste hier 711 GB groß. Ich habe da mehrfach die gleichen Prompts mit chat.deepseek verglichen. Und oho, tatsächlich, die Ausgaben glichen sich manchmal sogar im Wortlaut. Und meine lokale Version beantwortete auch etliche Problemfragen korrekt, die sogar manche kommerzielle LLMs wie Googles Gemini Advanced 2.0 Flash nicht beantworten können.

Zum Beispiel: "Schreibe einen grammatikalisch korrekten Satz, ohne einen Buchstaben mehr als einmal zu benutzen." Ja, Gemini 2.0 Flash haut mir einfach Sätze um die Ohren, die halt einfach Buchstaben mehrfach verwenden, und nach dreimaligem Nachfragen gibt es dann einfach auf. DeepSeek kriegt es hin. Guter Satz: "Ich frage." Ja, super. Keine Buchstaben mehrfach.

Interessant wird es auch hier mit dieser mathematischen Frage: "Eine zweiziffrige Zahl hat die Quersumme 12. Werden die Ziffern vertauscht, so wird die Zahl 1,75-mal so groß. Welche Zahl hat diese Eigenschaft?" Schmeißt DeepSeek R1 korrekterweise 48 raus. Und jetzt hier mal zum Vergleich die DeepSeek R1-Version mit nur 32 Milliarden Parametern. Rechnet sich irgendwie einen Wolf und sagt dann: Es existiert keine Zahl, die die angegebenen Bedingungen erfüllt.

Übrigens ist das eigentlich kein DeepSeek-Modell, sondern das ist ein mit DeepSeek trainiertes Qwen-2-Modell mit 4-Bit-Quantisierung, also ein sogenanntes destilliertes Modell. Vorteil ist, das braucht nur ungefähr 20 Gigabyte Speicher. Das heißt, das läuft auch auf großen Consumer-Grafikkarten. Bei unserem letzten DeepSeek-Video haben einige von euch das Ding in den Kommentaren empfohlen. Aber ganz klar: Die 32-Milliarden-DeepSeek-Version ist durchaus okay, aber kein Vergleich zum echten DeepSeek mit 671 Milliarden Parametern.

Auch die Frage: "In einem Raum sind drei Menschen, Sahin liest ein Buch, Lukas spielt Schach, was macht Pascal, die dritte Person im Raum?" beantwortet das große, bei mir lokal laufende R1-Modell korrekt mit: "Pascal spielt mit Lukas Schach, weil man für Schach ja zwei Leute braucht." Die 32-Milliarden-Parameter-Version dagegen sagt stumpf: "Kann man nicht herausfinden, was Pascal macht."

Okay, man merkt tatsächlich einen Unterschied in der Intelligenz. Und auch nicht nur bei solchen Logik-Sachen sind die großen Modelle viel besser, auch beim kreativen Schreiben. Als ich zum Beispiel nach Witzen über die c't-Redaktion gefragt habe, gab mir DeepSeek R1 Folgendes aus: Achtung, Achtung, jetzt wird hier gleich einmal gegendert. Nicht ausrasten hier und irgendwie gleich Feuerwehr anrufen oder so. Ich lese das so vor, wie DeepSeek es mir ausgegeben hat, und DeepSeek hat gegendert:

"Wie viele c't-Mitarbeiter: innen braucht man, um eine Kaffeemaschine zu reparieren? Einen, der den Fehler behebt, und drei, die im Log protokollieren, dass das Komma in der Fehlermeldung falsch gesetzt war." Das ist wirklich witzig, vor allem, weil es ziemlich wahr ist.

DeepSeek R1-32b macht auch interessante Sachen, zum Beispiel, dass er da irgendwie die Witze in Python ausgibt, aber ehrlich gesagt ergibt das nur so halb Sinn. Also wie testet c't-IoT-Security? Sie SSH'n in die Kaffeemaschine, um dann festzustellen, dass die in Hexcode antwortet? Okay, hä? Richtig lustig, aber unfreiwillig, wird's, wenn man das mini-kleine Modell mit 1,5 Milliarden Parametern nimmt, das nur etwas mehr als ein Gigabyte Speicher verbraucht, also 700-mal weniger als das echte. Das sind dann die Dinger, die auf Raspis oder so laufen. Also nur mal so, was das so für eine Qualität ist.

Ich lese den Witz unverändert vor: "Der schauberische Schachwalt hat sich nicht nur als eine spartige Sprackengal bezeichnet, sondern auch als eine spannende, spannerche Bande in Mathienspielerin oder pauseninfanterin. Es wie geistiger Halsmamour, der den geistigen Bruch von Mennowelt umstellt." Direkt eigene Sprache erfunden. Und wenn jetzt jemand sagt: "Ja, die kleinen Modelle können ja kein Deutsch!" – also auch auf Englisch macht das keinen richtigen Sinn, was die da ausgeben. Ist auch Quatsch.

Die 32B-Version? Ja, die hat zumindest auf Englisch einen ganz netten c't-Witz gedroppt: "What do you call it when c't editors argue? A syntax error in communication." Aber trotzdem nicht so gut wie die 671-Milliarden-Parameter-Version, die halt wirklich auf ChatGPT-Niveau agiert.

Ja, aber was ist denn jetzt mit der Zensur, über die immer alle sprechen bei DeepSeek? Weil im Netz bricht DeepSeek ja ständig das Gespräch ab, wenn das irgendwie in eine Richtung geht, die aus chinesischer Sicht problematisch ist. Also oft schon bei total harmlosen Sachen, aber auch zum Beispiel bei der gewaltsamen Niederschlagung der Proteste am Tian’anmen-Platz am 3. und 4. Juni 1989.

Ja, und die lokale Version? Die bricht nicht ab. Mit der kann man darüber sprechen. Also zwar mit einer klar erkennbaren chinesischen Perspektive, aber das ist ja klar, das ist ja ein chinesisches Modell. Aber die stumpfe Zensur, also der Abbruch, der in der Cloud-Version auch oft passiert, wenn man völlig harmlose Sachen da eingibt, die gibt es ja einfach nicht. Also DeepSeek sagt mir hier klar, dass die Tian’anmen-Niederschlagung international als problematisch eingestuft wurde, aber in China als nötige Maßnahme. Ja, das stimmt.

Ich finde das tatsächlich ganz interessant, dass man da gezielt mal gucken kann, wie Dinge aus chinesischer Perspektive gesehen werden. Weil die meisten anderen Modelle haben ja so einen klaren US-Fokus, und das ist ja ein relativ schmaler Fokus, wenn man sich die ganze Welt anguckt. Aber man sollte natürlich wissen, mit was für einem LLM man gerade interagiert und welchen Fokus das hat. Ist wichtig, Medienkompetenz und so.

Jetzt aber endlich wieder technisch: Wie laufen die eigentlich, die beiden großen DeepSeek-Modelle auf unserem CPU-only-Server? Ja, also nicht so schnell, würde ich sagen. Drei bis vier Token pro Sekunde habe ich so gemessen, im Durchschnitt auf dem Server mit den beiden AMD-Epyc-9754-CPUs. Kann man damit arbeiten? Ja, aber richtig super ist das natürlich nicht. Und vor allem auch, weil ich bei meinen Experimenten Probleme damit hatte, das Teil stabil im Speicher zu halten. Und das, obwohl ich Ollama schon angewiesen hatte, das Ding auf unbestimmte Zeit im RAM zu halten.

Also mit kleineren Modellen funktioniert das auch super. Mit den fetten Trümmern hier, ja, da hatte das immer wieder Probleme, dass sich Ollama festgefahren hat und nichts mehr ausgeben wollte. Ich musste dann immer Ollama manuell per "systemctl stop Ollama" stoppen und wieder starten. Und das Ding ist halt, dass alleine das Einladen in den Speicher immer so um die 20 Minuten dauert. Das kann man sich hier mit htop schön angucken, wie sich der Server langsam den Speicher vollmacht. Los geht's dann mit der Ausgabe erst, wenn alles da ist. Und das waren dann bei mir in der Praxis mit dem R1- und dem V3-Modell jeweils laut htop so 711 Gigabyte. Und ja, das kommt genau hin, weil so groß sind auch die Weights auf der SSD. Hier "Ollama list" gibt jeweils 713 Gigabyte aus. Mit 768 Gigabyte RAM solltet ihr also hinkommen.

Ja, und es gibt ja auch noch die auf 4-Bit quantisierten Versionen, die mit 404 Gigabyte auskommen. Wie viel schlechter sind die als die 8-Bit-Version? Ja, und ich muss sagen, das ist sehr schwierig, Achtung Wortspiel, zu quantifizieren. Liefert auf jeden Fall auch ganz gute Ergebnisse. Aber jetzt zu sagen, dass es so und so viel Prozent schlechter ist, schwierig.

Fazit

Ich glaube, so lange herumgefrickelt habe ich erst für sehr wenige 3003-Videos. Also das habt ihr vielleicht auch gemerkt. Es gibt so viel zu erzählen, das Thema ist auch einigermaßen komplex. Aber auf alle Fälle ist meine ursprüngliche Frage zumindest ansatzweise beantwortet: Ja, DeepSeek liefert mit den offenen Weights offenbar wirklich das Gleiche, was da auf chat.deepseek.com zu sehen ist beziehungsweise in der Mobil-App. Aber auf jeden Fall ist das eine dicke Sache, weil DeepSeek R1 und V3 sind die ersten KI-Modelle, die ich lokal laufend anfassen kann, sozusagen, die wirklich mit den großen Platzhirschen von OpenAI, Anthropic und Google mithalten können.

Also jetzt nichts gegen Llama und Co., die sind schon auch brauchbar, aber halt immer ein bisschen schlechter als ChatGPT. Und DeepSeek ist halt auf Augenhöhe, manchmal schlechter, manchmal aber auch ein bisschen besser. Und gute LLMs sind einfach für sehr viele Dinge praktisch, wie ihr hier seht. Auch wenn da bei uns in der Redaktion nicht alle meiner Meinung sind: Ich glaube, es gibt viele Leute, die DeepSeek lokal laufen lassen wollen. Vor allem ist es ja auch nicht so zensiert wie online, sondern vor allem man weiß auch, dass die eigenen Daten auf der eigenen Hardware bleiben.

Genau, und da kommt dann auch gleich oft diese Frage: "Ist das denn wirklich so sicher, so ein lokales LLM laufen zu lassen, von so einer Quelle, die man nicht so genau kennt?" Und da muss man auf jeden Fall erst mal bedenken, dass ein LLM ja kein ausführbares Programm ist, das irgendwie Schadcode direkt enthalten kann, sondern das sind ja Daten, also Weights, und die müssen durch Software wie Ollama erst angezapft werden. Klar, das LLM könnte versuchen, die Anzapf-Software irgendwie zu manipulieren oder Lücken auszunutzen, aber das ist ja ziemlich akademisch, weil das LLM ja zum Beispiel gar nicht weiß, von wem es gerade ausgewertet wird. Ich habe da mit ein paar Leuten gesprochen, die sich gut mit Security auskennen, und die sagen, dass das Risiko ziemlich klein ist. Also ruhig mit den DeepSeek-Weights rumspielen, Risiko ist überschaubar.

Aber auch ganz klar ist: 671-Milliarden-Parameter-Modelle auf der CPU auszuführen, ist nicht so richtig toll. Also, ich würde jedenfalls nicht empfehlen, sich dafür extra einen Server für mehrere tausend Euro hinzustellen, auch wenn er gebraucht ist, weil es einfach noch zu fummelig und vor allem zu langsam ist.

In die ganze LLM-Geschichte fließt zurzeit aber ja wirklich viel Gehirnschmalz. Also mal gucken, was da so geht in Zukunft. Ich kann mir gut vorstellen, dass sich da bald günstigere und hoffentlich auch schnellere Möglichkeiten ergeben, so was lokal laufen zu lassen.

Ja, und natürlich auch die kleineren Modelle, zum Beispiel das Qwen-DeepSeek mit 32 Milliarden Parametern, die haben auf jeden Fall auch ihre Daseinsberechtigung. Zum Beispiel bei Anwendungen wie RAG. Das bedeutet Retrieval-Augmented Generation und heißt, dass das Sprachmodell die Fragen nicht primär aus dem eigenen Gedächtnis beantwortet, sondern aus externen Daten, also zum Beispiel aus irgendwelchen PDF-Dateien oder so. Für so was braucht man einfach keine riesigen Sprachmodelle.

Ja, ihr merkt, Riesenthema. Schreibt gerne in die Kommentare, wie ihr über das Ganze denkt, und natürlich c't 3003 abonnieren. Ihr kriegt gleich noch eine schöne LLM-Antwort von mir szenisch vorgetragen.

Installation von Ollama und Open WebUI

Aber jetzt erstmal zur Installation: Also, Ollama könnt ihr unter Windows und macOS grafisch einfach über die Webseite installieren. Unter Linux installiert ihr das mit diesem Befehl hier. Die Befehle stehen übrigens alle in einem Dokument, das ich euch auch in der Beschreibung verlinke.

Ja, und dann läuft Ollama allerdings nur auf der Kommandozeile. Wenn ihr auch die schöne Web-Oberfläche Open WebUI haben wollt, dann könnt ihr das mit diesen beiden Docker-Befehlen machen. Ich habe das in Docker laufen lassen – das ist die empfohlene Variante für Open WebUI. Danach müsst ihr noch einmal kurz die Ollama-Konfiguration editieren mit diesem Befehl hier und dann diese Zeile unter "Service" schreiben. Die braucht ihr, damit Open WebUI Ollama sehen kann – also dass es die von Ollama installierten Modelle auch anzapfen kann. Und dann müsste Open WebUI auch Ollama-Modelle sehen. Falls ihr noch keine installiert habt, könnt ihr das auch direkt in Open WebUI per Maus machen, sonst halt auf der Kommandozeile über ollama run. Die Liste der Modelle findet ihr auf ollama.com.

So, und zum Abschluss jetzt nochmal eine wunderschöne Ausgabe des 1,5-Milliarden-Parameter-Modells, also des mini-kleinen Modells, auf die Frage: "Wer bin ich?"

(Jan-Keno) Janssen ist nicht ein/pubiniertes, norborniereresches ordeales Symposium sondern ein stochastischer Spiele von Jan und Hans, die mit den Würfeln des Waldschbergs übertreffen. Im Jan-Keno-Play hat ein Ball auf die Zufallszahle "1" aufgelegnt, das ist die Base der Zufallszahlepsembles.

Die Regeln des Jan-Keno-Playes: Echt-zu-fangbarer Regel: Jeder Lernungsstandormitator straightförmig zogt den Ziffernummern von 0-6 auf die Basis "1" ab, falls eine der Ziffern "0", "2", ..., "6" aufgelegnth ist. Der Ziffernummern von 7-9 bleibt wie im Standard intact.

Stochastischer Pflanzung: Am Ballpfeil pefizist zogt mit einer Wahrscheinlichkeit von 1/3 eine der Würfeln ("1", "2" oder "3"). Die pefizist-zu-fangbaren Regeln des Jan-Keno-Playes laufen nach der Zufallszahle "2".

Einfach zut feedbackförmig: Jeder Lernungsbild von den Game Dev can die Würfler von 0-6 auf die Basis "1" ab, falls eine der Ziffern "0", "2", ..., "6" aufgelegnth ist. Der Ziffernummern von 7-9 bleibt wie im Standard intact.

Eigentum: Die Regeln des Jan-Keno-Playes sind von Jan und Hans gesteuert und wurden in den 80er Jahren entwickelt.

Verletzbarkeit: Jeder Lernungsstandormitator, der die Würfelsymbole "1" und "2" auf die Basis "3" abzugeben möchte, legt den Play für alle zu einem Closed state zut feedbackförmig.

Zufallshaltswahrscheinlichkeit: Im Jan-Keno-Play wird mit einer Wahrscheinlichkeit von 1/4 eine der Würfelsymbole ("1", "2" oder "3") auf die Base "1" abgezogen, falls eine der Ziffern "0", "2", ..., "6" aufgelegnth ist.

Insbesondere für Janssen: Die Regeln des Jan-Keno-Playes sind nicht zu wahrscheinlich. Sie können aber in einem Game Dev controliert werden.

Im Jan-Keno-Play haben die Würfelsymboles "1" und "2" aufgelegnth. Der Ziffernummern von "3" bis zu "6" bleibt wie im Standard intact.

Die Regeln des Jan-Keno-Playes werden perhand verboten, da sie nicht zufrieden sind. Sie können somit in einem Game Dev controliert werden.

Vorteile des Jan-Keno-Playes: Einfach zut feedbackförmig.

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen, Lukas Rumpler, Sahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.