Large Language Models: Die Mathematik hinter TransformersDie Transformer-Architektur findet sich heute in allen Large Language Models. Aber wie genau funktioniert sie? Der Artikel klärt die mathematischen Hintergründe
Das Paradox der SoftwarearchitekturDie Frage ob Softwarearchitektur eine Kunst, Wissenschaft, Ingenieurwesen oder etwas völlig Neues bezeichnet, treibt die Community schon lange um.
heise+ JubiläumsspecialSichern Sie sich unser exklusives Aktionsangebot: heise+ 7 Monate für 7 € pro Monat lesen und zusätzlich zu allen Inhalten auf heise online unsere Magazin-Inhalte entdecken. Nur für kurze Zeit!
Ein Tag im Leben eines Softwarearchitekten – Überleben im UnternehmensdschungelProduktivität gehört zu den wichtigsten Qualitäten der Softwareentwicklung, wenn auf dem Weg nicht so viele hemmende Hindernisse lauern würden.
Arduino-Übernahme durch Qualcomm: Entscheidender Moment für die Maker-CommunityQualcomms geplante Übernahme des italienischen Unternehmens Arduino weckt in der Community gleichzeitig Hoffnung und vorsichtige Bedenken.
Künstliche Neuronale Netze im Überblick 11: Implementierung eines TransformersTransformer-Architekturen verarbeiten Prompts, um daraus Rückmeldungen zu liefern. Zusätzlich findet dort häufig Reinforcement Learning statt.
Künstliche Neuronale Netze im Überblick 10: Graphneuronale NetzwerkeGraph Neural Networks eignen sich dank der Graphenstruktur für Deep Learning mit Daten, deren Beziehungen sich durch Knoten und Kanten ausdrücken lassen.
Künstliche Neuronale Netze im Überblick 9: Die Zukunft Neuronaler NetzeAnsätze wie Attention-Only-Modelle und selbstüberwachtes Lernen eröffnen neue Möglichkeiten im Bereich der Künstlichen Intelligenz.
Künstliche Neuronale Netze im Überblick 8: Hybride ArchitekturenDer achte Teil der Serie zeigt, wie hybride Architekturen die Stärken von Convolutional-, Recurrent- und Attention-basierten Schichten kombinieren.
Künstliche Neuronale Netze im Überblick 7: Rekursive neuronale NetzeDer siebte Teil der Serie zeigt rekursive neuronale Netze, die besonders gut für die Verarbeitung sequenzieller Daten geeignet sind.
Künstliche Neuronale Netze im Überblick 6: Convolutional Neural NetworksDer sechste Teil der Serie widmet sich Convolutional Neural Networks mit ihren Faltungsschichten und zeigt einfache Codebeispiele für die Bildverarbeitung.
Künstliche Neuronale Netze im Überblick 5: Trainingsschleifen und BatchingDer fünfte Teil der Serie widmet sich Trainingsschleifen und vergleicht das Training mit und ohne explizite Mini-Batches.
Künstliche Neuronale Netze im Überblick 4: VerlustfunktionenDer vierte Teil der Serie beschreibt Verlustfunktionen, die ermitteln, wie gut die Vorhersagen eines Netzwerks mit den gewünschten Zielen übereinstimmen.
Künstliche Neuronale Netze im Überblick 3: AktivierungsfunktionenDer dritte Teil der Serie zeigt die Vorwärtsausbreitung und Aktivierungsfunktionen für das Zusammenspiel der Layer im neuronalen Netzwerk.
Künstliche Neuronale Netze im Überblick 2: Schichten und Feed-Forward-NetzwerkeDer zweite Teil der Serie zeigt, wie mehrere Neuronen, die sich die Eingaben teilen und parallel Ausgaben erzeugen, die Schicht eines Neuronalen Netzes bilden.
Künstliche Neuronale Netze im Überblick 1: Das künstliche NeuronDer erste Teil der Serie stellt den Grundbaustein für künstliche neuronale Netze vor: das von biologischen Neuronen inspirierte künstliche Neuron.
Quantencomputing: Ein Paradigmenwechsel für die SoftwareentwicklungDas Zeitalter des Quantencomputing rückt immer näher, doch was ist Quantencomputing und wie können sich Developer schon heute damit vertraut machen?
Mikrocontroller-Programmierung: All-in-One Starter Kits für Arduino und Pico 2Die All-in-one Starter Kits von Elecrow sind dafür geeignet, Anfängern den Einstieg in das Thema Microcontroller zu erleichtern.
Per Anhalter durch die KI-Galaxie – LLM-Crashkurs Teil 4Der letzte Teil der Serie betrachtet Reasoning-Modelle und gibt einen Ausblick auf die mögliche Zukunft der LLMs.
Per Anhalter durch die KI-Galaxie – LLM-Crashkurs Teil 3Die Artikelserie zeigt die internen Mechanismen großer Sprachmodelle von der Texteingabe bis zur Textgenerierung.
Per Anhalter durch die KI-Galaxie – LLM-Crashkurs Teil 2Die Artikelserie zu den internen Mechanismen großer Sprachmodelle behandelt diesmal die benötigte Hardware und pretrained Models.
Per Anhalter durch die KI-Galaxie – LLM-Crashkurs Teil 1Die Artikelserie zeigt die internen Mechanismen großer Sprachmodelle von der Texteingabe bis zur Textgenerierung.
Künstliche Superintelligenz (ASI) und Allgemeine Künstliche Intelligenz (AGI)Sind große Sprachmodelle tatsächlich kurz vor dem Erreichen eines menschlichen Niveaus, wie in einigen Publikationen und YouTube-Kanälen behauptet?