Cloud
Small Language Models können die bessere KI-Wahl sein
LLM sind meist das Modell der Wahl, unabhängig davon, ob der Einsatzbereich dies auch erfordert. Das Ergebnis: ein immenser Energieverbrauch. Dabei zeigt sich, dass Small Language Models häufig die bessere Wahl sind. Ein Plädoyer für die Vernunft.
Wer im Garten ein Loch für eine Petunie graben will, greift in der Regel nicht zum Raupenbagger. Das klingt einleuchtend, und ist es auch. Doch in der Welt der künstlichen Intelligenz scheint genau diese Intuition auf der Strecke geblieben zu sein: Große Sprachmodelle (Large Language Models, LLMs) wie GPT-5, Opus oder Gemini sind zum Standardwerkzeug für nahezu jede KI-Aufgabe geworden, egal ob die Anforderung dies rechtfertigt oder nicht.
Das Ergebnis ist ein Energieverbrauch durch KI, der in Rechenzentren sich inzwischen stark bemerkbar macht. 2024 verbrauchten Rechenzentren weltweit rund 415 TWh -- etwa 1,5 Prozent des globalen Stromverbrauchs. Bis 2030 soll dieser Wert auf knapp 945 TWh steigen, was in etwa dem gesamten Stromverbrauch Japans entspricht. Für KI-optimierte Rechenzentren rechnet die International Energy Agency (IEA) sogar mit einer Vervierfachung. In Deutschland hat sich der Stromverbrauch von Rechenzentren innerhalb eines Jahrzehnts nahezu verdoppelt, und das, obwohl gleichzeitig die Energieeffizienz der einzelnen Server deutlich gestiegen ist. Ökonomen kennen diesen Effekt als “Jevons-Paradoxon”: Effizienzgewinne werden durch die Steigerung der Nachfrage überkompensiert. Technischer Fortschritt allein löst das Problem also nicht.
Zwei Beispiele zeigen, wie die Folgen bereits spürbar sind: In Irland stieg der Anteil der Rechenzentren am nationalen Stromverbrauch innerhalb eines Jahrzehnts von 5 auf 25 Prozent, was schließlich zu einem vierjährigen Moratorium für neue Rechenzentrumsgenehmigungen führte. In Deutschland ist das Frankfurter Stromnetz bis weit in die 2030er Jahre ausgelastet. Einige Betreiber weichen deshalb auf private Gasaggregate aus -- ein kurioser Rückschritt durch digitalen Fortschritt.
SLMs: Gut genug, oft sogar besser
Vor diesem Hintergrund lohnt sich ein nüchterner Blick auf die Alternative: Small Language Models (SLMs) mit typischerweise 1 bis 8 Milliarden Parametern. Die naheliegende Befürchtung „weniger Modell bedeutet weniger Qualität“ trifft für viele Anwendungsfälle einfach nicht zu.
Für die Codegenerierung, heute einer der häufigsten LLM-Anwendungsfälle, haben spezialisierte SLMs wie WizardCoder oder CodeLlama kommerziell gehostete Großmodelle in direkten Vergleichen der Leistung übertroffen. Ähnliches gilt für agentenbasierte Anwendungen (Agentic AI), bei denen SLMs in praxisnahen Benchmarks Genauigkeitswerte zwischen 65 und 88 Prozent erreichen -- und zwar auf einfacher Edge-Hardware -- ohne Cloud-Anbindung.
Und wo ein SLM allein noch nicht ausreicht, kann das Fine-Tuning auf domänenspezifischen Daten den Abstand zu großen Modellen auf einen Bruchteil reduzieren, bei einem Rechenaufwand, der tatsächlich auf einer einzigen GPU in wenigen Stunden zu bewältigen ist. Das LLM aber bleibt so universell, wie es ist, da eine Feinabstimmung in dieser Größenordnung unerschwinglich teuer ist.
Der Energievorteil kleiner Modelle ist nicht zu verachten. Laut IEA verbraucht ein kleines Sprachmodell etwa 40-mal weniger Energie pro Aufgabe als ein großes Sprachmodell, und das bei vergleichbarer Leistung im jeweiligen Anwendungsbereich. Hinzu kommt ein oft übersehener Hardwarevorteil: Moderne Edge-Devices und Smartphones verfügen zunehmend über Neural Processing Units (NPUs), die speziell für die Inferenz kleiner Modelle optimiert sind.
LLMs mit mehreren zehn Milliarden Parametern sind dafür schlicht zu groß und bleiben auf GPU-Cluster in der Cloud angewiesen. Der Energiegewinn durch NPU-Inferenz ist also kein gradueller, sondern ein kategorischer Unterschied. Er steht SLMs offen, LLMs aber prinzipiell nicht.
Dasselbe Argument gilt übrigens nicht nur für Sprachmodelle. Für die Bilderkennung, die Erkennung von Anomalien in Zeitreihendaten oder klassische Klassifikationsaufgaben sind spezialisierte ML-Modelle oft genauer, ressourceneffizienter und einfacher zu interpretieren als ein multimodales LLM, ohne die Betriebskosten und Abhängigkeiten, die ein großes, gehostetes Modell mit sich bringt.
Datenschutz ohne Aufpreis
Neben Energie und Leistung gibt es einen weiteren Aspekt, der im LLM-Hype oft untergeht: Wer ein großes, in der Cloud gehostetes Modell nutzt, sendet seine Anfragen und damit potenziell PII (persönlich identifizierbare Informationen), Geschäftsinformationen oder personenbezogene Daten an Server von Dritten. Für Sektoren wie etwa das Gesundheitswesen, Finance oder Öffis sind dies keine Peanuts, sondern ein strukturelles Compliance-Hindernis. DSGVO, Bankgeheimnis und branchenspezifische Anforderungen lassen schlichtweg keinen Spielraum für unkontrollierten Datentransfer.
SLMs können vollständig auf unternehmenseigener Hardware, auf Edge-Geräten oder in Air-Gap-Umgebungen ohne Internetverbindung lokal betrieben werden. Das ermöglicht den Einsatz von KI auch dort, wo eine Cloud-Anbindung aus Sicherheitsgründen ausscheidet: in der Industrieautomation, bei der Verarbeitung von Patientendaten oder im Umfeld kritischer Infrastrukturen. Modelle laufen heute praxistauglich auf Geräteklassen wie dem Raspberry Pi.
Fazit: Die richtige KI für den richtigen Zweck
Die IEA formuliert das Leitprinzip kurz und treffend: „Right Model for Right Task“. Dies ist keine akademische Empfehlung, sondern eine Frage der Infrastruktur und des Klimas. Der Reflex, für jede KI-Aufgabe das größtmögliche Modell zu wählen, ist weder ökologisch noch ökonomisch noch sicherheitstechnisch rational.
SLMs sind für eine breite Klasse von Alltagsaufgaben gut genug, für spezialisierte Aufgaben oft sogar besser. Und sie lassen sich ohne Datenschutzrisiken, ohne prohibitive Betriebskosten und ohne Abhängigkeit von Cloud-Infrastrukturen betreiben. Wer also vor der Entscheidung steht, welche KI er einsetzen soll, sollte sich zuerst fragen: Brauche ich wirklich den Bagger, oder tut es der Spaten auch?