100 Milliarden Parameter: Der monolithische Irrtum
„Je größer, desto besser“ – diese Art von KI stößt an Grenzen. Die derzeitige LLM-Blase ist durch ruinöse Inferenzkosten und sinkende Renditen gekennzeichnet. Die Zukunft gehört der agentenbasierten KI, die auf speziellen Small Language Models basiert.
Die Tech-Branche hat sich in den letzten fünf Jahren der Hypothese verschrieben, Größe ist alles, was man braucht. Es wurden monolithische Large Language Models (LLMs) mit Parametern gebaut, die mit dem Bruttoinlandsprodukt kleiner Nationen konkurrieren, in der Überzeugung, dass etwas Gottähnliches entsteht, wenn man nur mehr GPUs hinzufügen würde. Das hat nicht geklappt. Wir haben sehr teure, sehr beeindruckende Textgeneratoren gebaut, die aber für tatsächliche Geschäftsabläufe wirtschaftlich katastrophal sind.
Ende 2025 nun ist der Hype vorbei. Clement Delangue, CEO von Hugging Face, nennt das Phänomen die „LLM-Blase” – nicht Skepsis gegenüber KI an sich, sondern eine Kritik an den Bewertungsmodellen für die massiven Allzweckmodelle. Der Markt ist dabei, die „Wrapper”-Startups ausmerzen und eine Umstellung auf etwas Langweiliges, aber Profitables zu erzwingen: Effizienz.
Die Zukunft liegt nicht in einem einzigen allwissenden Modell. Sie liegt in Milliarden kleiner, spezialisierter Modelle.
Der Einsatz eines Modells der GPT-5-Klasse für jede Aufgabe ist genauso effizient wie die Einstellung eines Physik-Nobelpreisträgers für die Aufgabe der Dateneingabe. Natürlich könnte er das erledigen, aber Zeilen in Excel zu kopieren und einzufügen bei einem Gehalt von 500.000 Dollar?
Das ist der „monolithische Irrtum”! Man ging davon aus, dass ein einziges Modell Gedichte schreiben, Python programmieren, Krankheiten diagnostizieren und JSON analysieren sollte. Aber in der realen Welt ist Spezialisierung besser als Generalisierung.
Macht für die Kleinen
Neue Forschungsergebnisse des Samsung AI Labs in Montreal haben das Dogma „Größe ist alles, was man braucht“ widerlegt. Ihr Tiny Recursive Model (TRM) – mit nur 7 Millionen Parametern – übertraf einige der weltweit besten LLMs im Abstract and Reasoning Corpus (ARC-AGI), einem Benchmark, der speziell entwickelt wurde, um Maschinen zu überlisten.
Das Verhältnis: Ein Modell, das 10.000 Mal kleiner ist als ein Frontier-LLM, schlägt dies in Sachen reiner Logik. Die Forscherin Alexia Jolicoeur-Martineau bezeichnet die Überzeugung, dass nur millionenschwere Modelle schwierige Aufgaben bewältigen können, als „Falle“. Ihr Modell speichert nichts, sondern verfeinert seine Antworten rekursiv und korrigiert sich bis zu sechzehn Mal, bevor es ein Ergebnis ausgibt. Dies beweist, dass logisches Denken kein magisches Nebenprodukt der Größe von Billionen Parametern ist, sondern ein technisches Problem, das durch Architektur und nicht nur durch rohe Gewalt zu lösen ist.
Diese Unterscheidung ist für Agentic AI von entscheidender Bedeutung. Im Gegensatz zu Chatbots, die auf einen Input warten, tun Agenten etwas. Sie führen Arbeitsabläufe aus. Eine einzelne Agenten-Schleife kann 100 interne Schritte umfassen – Abfragen einer Datenbank, Analyse eines Schemas, Schreiben von Code, Testen und Formatieren der Ausgabe.
Wenn jeder dieser 100 Schritte 0,03 Dollar an Inferenz kostet, ist der Agent kein Produktivitätswerkzeug, sondern ein Ofen, der Risikokapital verbrennt. Um Agenten rentabel zu machen, muss der Nobelpreisträger gegen tausend effiziente Praktikanten eingetauscht werden.
Die digitale Fabrik
Forscher von NVIDIA haben diesen Wandel kürzlich als „digitale Fabrik” beschrieben, in der Intelligenz von massiver Größe entkoppelt ist. In dieser Architektur sind Small Language Models (SLMs) die Arbeiter. Sie sind spezialisiert und billig. Ein Modell schreibt nichts anderes als SQL, ein anderes formatiert nur JSON. Ein drittes fasst Gesetzestexte zusammen. Sie übernehmen 90 % der Arbeitslast – die Arbeiteraufgaben der digitalen Wirtschaft.
Die massiven LLMs? Sie werden zu Beratern, die man nur dann ruft, wenn die Arbeiter nicht weiterkommen oder wenn eine hochrangige strategische Planung benötigt wird. Ein „Router” sitzt an der Tür, analysiert jede Anfrage und entscheidet: „Braucht man dafür das 100-Dollar-pro-Stunde-Genie oder den 0,01-Dollar-pro-Stunde-Spezialisten?”
Das ist nicht nur Theorie. Die Commonwealth Bank of Australia (CBA) macht dies bereits. Sie hat nicht versucht, ein „Bank-GPT” zu entwickeln, sondern setzt über 1.000 spezialisierte Modelle ein, um bestimmte Aufgaben, wie das Lesen von Gehaltsabrechnungen und die Aufdeckung von Betrug, zu übernehmen. Das Ergebnis? Eine 70-prozentige Reduzierung der Betrugsverluste.
Der Exchange für Agenten
Dieser Wandel hin zur Spezialisierung schafft eine neue Marktstruktur: die Agent-Börse. Gartner prognostiziert bis 2028 B2B-Ausgaben in Höhe von 15 Billionen Dollar für vermittelte KI-Agenten. Es wird einen Marktplatz für spezialisierte Fähigkeiten geben – einen „App Store“ für Intelligenz, in dem man keine „KI“ kauft, sondern bestimmte Fähigkeiten mietet.
Zwei Technologien machen dies heute möglich:
- Der Konnektivitätsstandard (MCP): Das Model Context Protocol (MCP), das von Anthropic und anderen propagiert wird, legt fest, wie Agenten mit Daten (wie Google Drive oder Slack) und Tools verbunden werden. Dies macht die Integration zur Commodity. Es bedarf nicht mehr eines „Legal Agent, der sich mit Outlook verbindet“, sondern es gibt einen „Legal Agent“ und der wird an den bestehenden „Outlook MCP Server“ angeschlossen.
- Die modulare Fähigkeit (LoRA Hubs): Predibase hat LoRAX (LoRA Exchange) als Open Source veröffentlicht, ein Framework, mit dem eine einzelne GPU Tausende von fein abgestimmten Adaptern gleichzeitig bedienen kann. Together AI wiederum hat serverlose Multi-LoRA-Endpunkte eingeführt, bei denen Entwickler nur für die von einem bestimmten Adapter verwendeten Token bezahlen. Diese Infrastruktur ermöglicht es einem Agenten, einen „Python-Coding”-Adapter zu laden, um ein Skript zu schreiben, und dann sofort zu einem „Security-Audit”-Adapter zu wechseln, um es zu überprüfen, und das alles zu einem Bruchteil der Kosten einer dedizierten Bereitstellung einer Instanz.
Dadurch entsteht ein Markt für Fähigkeiten. Ein Logistikunternehmen wird kein Modell für die Zollabfertigung trainieren. Es wird stattdessen einen „Customs Clearance LoRA” von einer Anwaltskanzlei für 0,001 Dollar pro Anruf mieten, ihn in seinen Supply-Chain-Schwarm einbinden und die Aufgabe ausführen.
Der Markt verlagert sich vom Verkauf massiver Modelle zum Verkauf spezialisierter, interoperabler „Arbeiter”.
Die Hume’sche Verpflichtung
Das NVIDIA-Whitepaper „Small Language Models are the Future of Agentic AI” führt eine „Humesche moralische Verpflichtung” ein: Wir müssen eine Aufgabe, die mit weniger Energie und Rechenleistung zu erledigen, auch so erledigen.
Ein Modell mit 175 Milliarden Parametern zu betreiben, um eine hundert Wörter lange E-Mail zusammenzufassen, ist ein Akt der Rechenverschwendung. Es verschwendet Energie, belastet das Netz und zentralisiert die Macht in den Händen der wenigen Hyperscaler, die sich die Infrastruktur leisten können.
SLMs demokratisieren diese Macht. Sie können ein Llama 3.2 (1B)-Modell auf einem Smartphone ausführen. Dadurch wird die Intelligenz von der Cloud an den Edge verlagert, wodurch Datenschutzprobleme über Nacht gelöst werden. Ein „Health Coach”-Agent kann Ihre biometrischen Daten auf Ihrer Uhr analysieren, ohne dass diese sensiblen Informationen jemals Ihr Handgelenk verlassen. Das ist nicht nur Effizienz, das ist Souveränität!
Sicherheit durch Kompartimentierung
Eine der lahmsten Argumente der Kritik an diesem fragmentierten Ansatz betrifft die Sicherheit. „Mehr Modelle bedeuten mehr Angriffsvektoren”, heißt es. Falsch!
Monolithische Modelle sind ein Single-Point-of-Failure. Wer das „Gott-Modell” knackt, dem gehört das gesamte System. In einem heterogenen System aber gibt es Kompartimentierung. Der „Public Chat”-Agent kann physisch vom „Transaction Execution”-Agenten getrennt werden – und selbst wenn ein Unternehmen die Sicherheit zentralisieren möchte, ist das der Grund, warum sich die Kontrollen auf den offensichtlichen Kontrollpunkt konzentrieren – die API-Gateways wie Kong oder LiteLLM.
Darüber hinaus sind spezialisierte Aktionsmodelle (LAMs) wie xLAM von Salesforce darauf trainiert, strenge JSON-Strukturen auszugeben. Wenn ein Angreifer versucht, einen Befehl zur Generierung von Malware einzuschleusen, lehnt der Schema-Validator des Modells diesen einfach ab, da er nicht dem erforderlichen Format entspricht. Es handelt sich um eine Syntax-Firewall, die wesentlich schwieriger zu durchbrechen ist als ein gesprächiges, hilfsbereites LLM.
Gartner prognostiziert, dass bis 2027 40 % der agentenbasierten KI-Projekte aufgrund von Kosten und unklarem Nutzen scheitern werden. Dies sind diejenigen Projekte, die sich auf die Brute-Force-Skalierung der Vergangenheit verlassen. Die Projekte, die erfolgreich sein werden, sind diejenigen, die Schwärme aufbauen.