
ChatGPT beherrscht mit seinen 180 Millionen Nutzern die Schlagzeilen. Währenddessen läuft über die Hälfte des LLM-Marktes „On-Premises“ – also lokal. Das ist kein Tippfehler. Mehr Unternehmen vertrauen heute Open-Source-Sprachmodellen, die sie besitzen, modifizieren und kontrollieren können, als proprietären APIs, die sie Monat für Monat mieten müssen.
Seit Anfang 2023 haben sich die Veröffentlichungen von Open-Source-Modellen im Vergleich zu Closed-Source-Alternativen fast verdoppelt. Die Unternehmen hatten es satt, dabei zuzusehen, wie ihre API-Rechnungen explodierten, während Anbieter ihre Preisstrukturen nach Lust und Laune änderten. Sie wollten Ausstiegswege. und sie haben sie bekommen.
Dieser Guide zeigt dir, wie es wirklich ist. Wir untersuchen die wichtigsten Open-Source-LLMs des Jahres 2026, vergleichen ihre reale Leistung und zeigen dir, wie du sie mit Ollama und LangChain bereitstellst, ohne dein Budget zu sprengen.
Übersicht über Open-Source-LLM-Modelle
Open-Source-LLMs gibt es in zwei Varianten: Basismodelle und feinabgestimmte (fine-tuned) Varianten. Basismodelle verstehen Sprachmuster. Feinabgestimmte Modelle folgen Anweisungen. Für produktive Aufgaben wirst du letztere benötigen.
Das Ökosystem reicht von 1B-Parameter-Modellen für dein Smartphone bis hin zu 670B-Parameter-Monstern, die mehrere H100-GPUs benötigen. Größe spielt hier eine Rolle, aber anders als gedacht. Ein gut optimiertes 7B-Modell übertrifft oft ein schlecht konfiguriertes 70B-Modell. Der Kontext ist oft wichtiger als die reine Anzahl der Parameter.
Wir haben uns auf Modelle konzentriert, die über Ollama verfügbar sind, da manuelle Bereitstellungen Zeitverschwendung sind. Warum solltest du drei Tage lang mit Python-Umgebungen kämpfen, wenn Ollama das in drei Befehlen erledigt? Jedes Modell in diesem Guide funktioniert mit Standard-Workflows. Es ist keine Spezial-Hardware erforderlich.
Bei den Bereitstellungsoptionen gibt es drei Lager: On-Premise für Datenschutz-Fanatiker, Cloud für Skalierungs-Enthusiasten und Hybrid für Leute, die sich nicht entscheiden können. Wähle basierend auf deinen Compliance-Vorgaben, nicht nach dem Anbieter-Hype. HIPAA erfordert On-Premise. Alles andere? Deine Entscheidung.
Vor- und Nachteile von Open-Source-LLMs
Du bist der Besitzer oder die Besitzerin. Das ist der LLM-Vorteil, den jeder will – bis man merkt, dass Eigentum auch Verantwortung bedeutet. Kein Anbieter kann dein Modell einstellen, die Preise ändern oder deinen API-Zugang sperren. Du kontrollierst die Trainingsdaten, den Feinabstimmungsprozess und die Infrastruktur der Bereitstellung.
Feinabstimmung funktioniert bei Open-Source-Modellen besser, weil du Hyperparameter anpassen kannst, die die ursprünglichen Entwickler nie offengelegt hätten. Beiträge aus der Community beschleunigen diesen Prozess zusätzlich. Jemand hat dein Optimierungsproblem sicher schon gelöst; du musst nur das passende GitHub-Repo finden.
Kostenprognosen werden berechenbar. Statt zuzusehen, wie nutzungsbasierte Preise in der Startwoche explodieren, zahlst du einfach für deine Server. Fixkosten schlagen variable Albträume. Dein CFO wird dich lieben. Dein Infrastruktur-Team vielleicht weniger.
Was niemand erwähnt: Die Qualität hinkt oft noch hinter GPT-4 und Claude her. Open-Source-Teams fehlen die Milliarden-Dollar-Budgets für das Training. Sie kompensieren das mit cleverer Architektur und Community-Einsatz, aber bei der reinen Leistung? Da gewinnen geschlossene Modelle noch meistens.
Die Sicherheit wird komplizierter, wenn die Modellgewichte direkt auf deinen Servern liegen. Angreifer können ohne Ratenlimits nach Schwachstellen suchen. Prompt-Injection, Data-Poisoning und Modell-Inversion-Angriffe werden dadurch einfacher. Du bist selbst für die Verteidigung verantwortlich. Es gibt kein externes Sicherheitsteam, das du anrufen kannst, wenn etwas schiefgeht.
Die Lizenzen variieren stark. Apache 2.0 heißt für dich: „Mach, was du willst“. Metas Llama-Lizenz enthält jedoch kommerzielle Einschränkungen für sehr große Installationen. Einige Modelle verbieten die kommerzielle Nutzung komplett. Lies das Kleingedruckte, sonst müssen es später deine Anwälte für dich tun.
Open-Source-LLMs im Vergleich
Es gibt nicht das eine „beste“ Open-Source-LLM. Jeder, der das Gegenteil behauptet, will dir etwas verkaufen. Das richtige Modell hängt von deinem Anwendungsfall, deiner Hardware und deiner Toleranz für Debugging-Sessions um 2 Uhr morgens ab.
Benchmarks lügen. Nicht absichtlich, aber sie messen synthetische Aufgaben, die nichts mit der realen Arbeit zu tun haben. MMLU-Werte (Massive Multitask Language Understanding) sind weniger wichtig als die Frage, ob dein Chatbot aufhört, Kundennamen und andere Fakten zu halluzinieren. Die Open-LLM-Rangliste von Hugging Face führt sechs standardisierte Tests durch. Das ist nützlich, um Äpfel mit Äpfeln zu vergleichen, aber nutzlos, um die Leistung im Produktivbetrieb vorherzusagen.
Die Rangliste akzeptiert Einreichungen von jedem, was die Bewertung zwar demokratisiert, aber auch dazu anreizt, Kennzahlen künstlich zu manipulieren. Modelle werden oft auf Benchmark-Leistung hin optimiert statt auf nützliches Verhalten – das haben wir bereits mit ImageNet gesehen.
Teste mit deinen echten Daten. Lass das Modell mit repräsentativen Abfragen laufen. Miss die Latenz unter Last. Zähle die Halluzinationen pro tausend Antworten. Synthetische Benchmarks sagen dir nicht, ob das Modell für dein spezifisches Albtraumszenario funktioniert.
Llama 4: Das Allround-KI-Modell
Meta hat Llama 4 im April 2025 veröffentlicht, und es ist ein völlig anderes Kaliber als alles, was es zuvor gab. Die gesamte Architektur wurde auf Mixture of Experts (MoE) umgestellt. Es gibt zwei Modelle, die du heute tatsächlich herunterladen kannst: Scout und Maverick.
Scout nutzt 17 Milliarden aktive Parameter, die aus insgesamt 109 Milliarden Parametern von 16 Experten gezogen wurden. Das passt auf einen einzigen H100. Wenn du es auf int4 quantisierst, kannst du ernsthafte Inferenz laufen lassen, ohne dass du dafür eine zweite Hypothek auf deinen Rack-Platz aufnehmen musst. Das 10-Millionen-Token-Kontextfenster klingt auf dem Papier unglaublich. Die „Nadel im Heuhaufen“-Tests sind bestanden. Dokumentenabruf in der Praxis? Deine Ergebnisse können variieren. Meta hat keine Bewertungen veröffentlicht, die über die Grundlagen hinausgehen.
Maverick ist die leistungsstärkere Option. Dieselben 17 Mrd. aktiven Parameter, aber insgesamt 400 Mrd. über 128 Experten, begrenzt auf ein 1-Million-Token-Kontextfenster. Meta nutzt dieses Modell intern für WhatsApp, den Messenger und Instagram. Benchmarks zeigen, dass es GPT-4o und Gemini 2.0 Flash schlägt. Die Sache hat einen Haken. Meta hat eine „experimentelle, für Konversationen optimierte Chat-Version“ bei LMArena eingereicht, die sich von der Version unterscheidet, die du tatsächlich herunterlädst. Die Community hat bemerkt, dass sich das Produktionsmodell anders verhält. Betrachte diese Benchmark-Zahlen also mit einer gesunden Portion Skepsis.
Dieses Ungetüm existiert irgendwo in Metas Trainings-Cluster. Sie geben 288 Milliarden aktive Parameter und insgesamt etwa 2 Billionen an. Es ist nicht verfügbar. Plane also nicht damit.
Die Modelle sind jetzt nativ multimodal. Text und Bilder rein, Text raus. Trainiert mit Daten, die 200 Sprachen abdecken, inklusive Support für die Feinabstimmung in 12 Sprachen: Arabisch, Englisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Portugiesisch, Spanisch, Tagalog, Thai und Vietnamesisch. Europäische Nutzer erleben jedoch eine unangenehme Überraschung: Die Vision-Funktionen sind in der EU aufgrund der Nutzungsrichtlinien von Meta blockiert. Lies daher die Bedingungen genau durch, bevor du das Modell bereitstellst.
Llama Guard übernimmt die Sicherheitsfilterung der Ein- und Ausgaben. Prompt Guard erkennt Jailbreaks und Versuche von Prompt-Injections. CyberSecEval führt Sicherheitsbewertungen durch. Das klingt auf dem Datenblatt alles sehr vernünftig. Offensichtliche Angriffe werden abgefangen, aber subtile schlüpfen durch – die übliche Geschichte bei Sicherheitswerkzeugen.
Die Lizenzierung bleibt „Open-Weights“ und ist kein echtes Open Source. Die Llama 4 Community-Lizenz erlaubt die kommerzielle Nutzung, solange du unter 700 Millionen aktiven Nutzern pro Monat bleibst. Diese Schwelle hindert Größen wie Microsoft oder OpenAI daran, Konkurrenzprodukte auf Metas Arbeit aufzubauen, aber für dein Startup ist das völlig okay. Du bist verpflichtet, das „Built with Llama“-Branding auf kommerziellen Produkten zu zeigen, und deine Ableitungen erben die Lizenzbeschränkungen. DeepSeek hingegen wird unter der MIT-Lizenz ohne jegliche nachgelagerte Verpflichtungen ausgeliefert. Das ist ein wichtiger Punkt, den du bei der Wahl deines Basismodells abwägen solltest.
Mistral AI: On-Device LLM-Lösungen
Das französische Startup Mistral AI entwickelte sich innerhalb von 18 Monaten vom Newcomer zum Major Player. Ihre 3B- und 8B-Modelle laufen direkt auf Smartphones. Und zwar richtig – nicht nur „theoretisch möglich, aber unbrauchbar“. Die Reaktionszeiten bleiben auf aktueller Hardware unter 500 ms.
Die Ministral-Modelle schlagen die ähnlich großen Alternativen von Google und Microsoft in den meisten Benchmarks. Die Mixture-of-Experts-Architektur aktiviert nur die benötigten Teile des Netzwerks – das senkt die Kosten, ohne die Qualität zu opfern. In der Theorie. Die Praxis zeigt jedoch die üblichen Abwägungen zwischen Geschwindigkeit und Genauigkeit.
Native Funktionsaufrufe funktionieren ohne spezielles Prompting – das Mistral-LLM versteht die Nutzung von Werkzeugen (Tools) von Haus aus. Konkurrenzmodelle benötigen aufwendiges Prompt-Engineering, um die gleichen Ergebnisse zu erzielen. Dieses Feature ist beim Bau von Agenten wichtiger als reine Benchmark-Ergebnisse.
Die Kontextfenster erreichen bei ihren größten Modellen 128.000 Token. Nützlich für die Dokumentenanalyse, aber für Chatbots meist übertrieben. Die meisten Konversationen benötigen nicht mehr als 8.000 Token Kontext, es sei denn, deine Nutzer schreiben Romane als Prompts.
Die Lizenzierung ist aufgeteilt: Apache 2.0 für kleine Modelle und kommerzielle Lizenzen für die großen. Das Unternehmen Mistral AI braucht Einnahmen. Das kann man ihnen nicht vorwerfen. Ihre Preisstruktur wirkt fair im Vergleich zu Alternativen, die alles hinter Bezahlschranken verriegeln.
Falcon 3: Ressourcenbeschränkte LLM-Bereitstellung
Das Technology Innovation Institute aus Abu Dhabi hat Falcon 3 so entwickelt, dass es auf Laptops läuft. Nicht auf Gaming-Laptops mit drei Grafikkarten. Auf ganz normalen Laptops. Das 3B-Modell läuft bequem auf einem MacBook Air.
Das Training mit 14 Billionen Token kostet richtig viel Geld. Das TII hat es trotzdem ausgegeben und das Datenvolumen im Vergleich zum Vorgänger verdoppelt. Mehr Trainingsdaten korrelieren in der Regel mit besserer Logik. Diese Beziehung gilt so lange, bis sie an ihre Grenzen stößt. Ab einem gewissen Punkt bringst du dem Modell nur noch bei, Stack Overflow auswendig zu lernen.
Die Falcon3-Mamba-Variante nutzt State-Space-Modelle anstelle von Transformern. Andere Architektur, ähnliche Ergebnisse. Schnellere Inferenz bei langen Sequenzen. Aber schlechtere Leistung bei kurzen. Du musst wissen, was dir wichtiger ist.
Die mehrsprachige Unterstützung umfasst Englisch, Französisch, Spanisch und Portugiesisch. Vier Sprachen sind besser als Metas Ansatz, fünfzig Sprachen vorzutäuschen, bei dem die Qualität nach Englisch rapide in den Abgrund stürzt. Ehrliche Einschränkungen helfen mehr als vorgetäuschte Fähigkeiten.
Es ist kostenlos verfügbar für Forschung und kommerzielle Nutzung unter der TII-Falcon-Lizenz. Wir konnten keine versteckten Haken finden. Erfrischend, nachdem man Metas 12-seitiges juristisches Dokument gelesen hat.
Google Gemma 3: Verantwortungsvolle KI-Entwicklung
Google hat Gemma 3 mit der Technologie von Gemini 2.0 entwickelt. Das 27B-Modell schlägt Llama-405B, DeepSeek-V3 und o3-mini in den LMArena-Benchmarks. Damit übertrifft ein 27-Milliarden-Parameter-Modell ein Modell, das fünfzehnmal so groß ist. Die 4B-Version schlägt sogar das 27B-Modell der letzten Generation. Die Physik gilt zwar noch, aber Google hat ein Schlupfloch gefunden: Durch Distillations-Training und eine „5-zu-1 Interleaved Attention“-Architektur wird eine Explosion des KV-Caches verhindert.
Es gibt jetzt fünf Modellgrößen: 270M, 1B, 4B, 12B und 27B. Das winzige 270M-Modell verbraucht auf einem Pixel 9 Pro nur 0,75% Akku für 25 Konversationen. Es wird zwar keinen Roman für dich schreiben, aber es klassifiziert Support-Tickets, ohne dein Edge-Gerät zum Schmelzen zu bringen. Die Modelle ab 4B sind multimodal. Möglich sind Text und Bilder. Die 1B-Version bleibt rein textbasiert.
Das Kontextfenster ist von 8K auf 128K Token gesprungen. Das entspricht 30 hochauflösenden Bildern, einem 300-seitigen Buch oder einer Stunde Video in einem einzigen Prompt. Unterstützung für über 140 Sprachen. Funktionsaufrufe sind fest integriert, sodass du echte Agenten bauen kannst, statt dich mit „Prompt-Chaining“-Alpträumen herumzuschlagen.
„Verantwortungsvolle KI-Entwicklung“ klingt nach Marketing, bis du den technischen Bericht liest. Googles interne Tests zeigten massive Fortschritte bei der Kindersicherheit, Inhaltssicherheit und der Vermeidung von Diskriminierung im Vergleich zu früheren Gemma-Modellen. Sie führten Sicherheitsbewertungen ohne Filter durch, um das rohe Verhalten des Modells zu messen. Die meisten Labore schenken sich diese mühsame Arbeit. Schnelle Veröffentlichung schlägt Sicherheit – und zwar jedes Mal.
ShieldGemma 2 filtert schädliche Bildinhalte. Auf Basis der 4B-Variante übertrifft es LlavaGuard 7B, GPT-4o mini und das Standard-Gemma-3-Modell bei der Erkennung von expliziten, gewalttätigen oder gefährlichen Inhalten. Du fütterst es mit deinen eigenen Sicherheitsrichtlinien. Und es liefert Ja/Nein-Klassifizierungen inklusive Begründung zurück. Besser als nichts, schlechter als eine menschliche Überprüfung, aber immerhin ist es skalierbar. Die Effektivität bleibt hierbei das Nadelöhr.
Die Kompatibilität umfasst Keras, JAX, PyTorch, Hugging Face und vLLM. Im Klartext: Du kriegst es wahrscheinlich mit deinem bestehenden Stack zum Laufen. Wahrscheinlich. Sowohl AMD ROCm als auch NVIDIA haben Optimierungen veröffentlicht. Dank „Quantization-Aware Training“ Gemma QAT kannst du die 27B-Version lokal auf Consumer-GPUs wie einer RTX 3090 betreiben. Dein Gaming-Rechner ist damit soeben zum produktiven Inferenz-Server geworden. Viel Glück allerdings dabei, die Stromrechnung zu erklären.
Microsoft Phi 4: Kosteneffiziente KI
Microsofts Phi 4 beweist, dass kleinere Modelle, die mit besseren Daten trainiert wurden, größere Modelle schlagen, die auf „Müll“ basieren. Die 16B-Parameter-Version konkurriert bei Logik-Aufgaben mit 70B-Alternativen. Nicht bei allen Aufgaben, aber bei Logik-Aufgaben.
Die Erzeugung synthetischer Daten steht oft in der Kritik, weil Modelle so nur lernen, sich selbst zu imitieren. Microsoft hat extrem aggressiv gefiltert, nur hochwertige Beispiele behalten und so Ergebnisse erzielt, die laut den gängigen Skalierungsgesetzen eigentlich unmöglich wären. Es stellt sich heraus: Skalierungsgesetze beschreiben Trends, keine physikalischen Grenzen.
Die Phi-3.5 MoE-Variante aktiviert nur 6,6 Mrd. Parameter pro Eingabe, obwohl sie insgesamt 42 Mrd. besitzt. Dein Server spürt also nur die Arbeitslast eines 7B-Modells. Dein Benchmark zeigt die Leistung eines 42B-Modells. Das Marketing liebt diesen Trick.
Die Kontextfenster erreichten bei Phi-3.5 noch 128k Token. Bei Phi-4 fielen sie auf 16k zurück. Niemand hat es bemerkt, weil 16k für 99% der realen Anwendungsfälle ausreichen. Das restliche 1% schreibt ganze akademische Arbeiten als Prompts.
Die Microsoft Research Lizenz erlaubt die kommerzielle Nutzung mit Einschränkungen. Lies sie dir durch. Die Anwälte von Microsoft haben sehr spezifische Formulierungen zu abgeleiteten Werken verfasst. Deine Anwälte sollten sie ebenfalls lesen.
Command R: KI für Unternehmensgespräche
Cohere hat Command R für Unternehmen entwickelt, die bereit sind, für Qualität zu zahlen. Das 104B-Modell bewältigt komplexe Logik-Aufgaben besser als die meisten Alternativen. Das 7B-Modell läuft lokal und behält dabei eine akzeptable Leistung bei. Wähle danach aus, ob dir Qualität oder dein Schlaf wichtiger ist.
Kontextfenster von 128k Token ermöglichen RAG-Workflows, die tatsächlich funktionieren. Die meisten Modelle „ersticken“ an langen Kontexten. Command R verarbeitet sie, ohne Referenzen zu Dokumenten zu halluzinieren, die es nie gesehen hat. Diese Zuverlässigkeit kostet Rechenleistung, aber für Anwendungen, bei denen es auf Genauigkeit ankommt, lohnt es sich.
Die Nutzung von Tools funktioniert nativ. Das Modell versteht, wann es Funktionen aufrufen muss, wie Ergebnisse zu parsen sind und was zu tun ist, wenn APIs Fehler zurückgeben. Wettbewerber betrachten die Tool-Nutzung oft nur als Nebensache, aber Cohere wurde genau dafür entworfen.
Die mehrsprachige Unterstützung deckt 23 Sprachen in unterschiedlicher Qualität ab. Englisch und Französisch funktionieren hervorragend. Bei Thai und Vietnamesisch gibt es noch Nachholbedarf. Cohere dokumentiert diese Einschränkungen, anstatt vorzugeben, dass jede Sprache gleich gut behandelt wird.
Die CC-BY-NC 4.0-Lizenz untersagt die kommerzielle Nutzung der offenen Gewichte. Du willst Software verkaufen, die Command R nutzt? Dann musst du Cohere bezahlen. Fair genug, denn das Training kostet schließlich Geld.
StableLM: Modelle für Rapid Prototyping
Stability AI hat StableLM für Entwickler veröffentlicht, die bis Freitag funktionierenden Code abliefern müssen. Das 1,6B-Modell, das auf 2 Billionen Token trainiert wurde, schlägt andere Optionen unter 2B Parametern. Beim Prototyping zählt die Geschwindigkeit. In der Produktion zählt die Genauigkeit. StableLM ist auf Ersteres optimiert.
Sieben Sprachen werden wirklich unterstützt: Englisch, Spanisch, Deutsch, Italienisch, Französisch, Portugiesisch und Niederländisch. Europäische Sprachen. Fällt dir ein Muster auf? Die Trainingsdaten stammen aus europäischen Quellen, und die Ergebnisse spiegeln diese Ausrichtung wider.
Die „Fill-in-the-middle“-Fähigkeit sagt fehlende Code-Segmente voraus. Traditionelle Modelle erweitern Code immer nur am Ende. Diese architektonische Entscheidung ermöglicht eine bessere Codevervollständigung. Konkurrenten wie Cursor und Copilot sollten das im Auge behalten.
StableLM-Code-Varianten sind auf Programmieraufgaben spezialisiert. StableLM-Japanisch und StableLM-Arabisch bedienen spezifische Märkte. Spezialisierung schlägt Verallgemeinerung, wenn du deinen Zielbereich genau kennst.
Die Lizenzierung ist in Community- und Enterprise-Stufen unterteilt. Kleine Projekte nutzen es kostenlos, während große Installationen bezahlen müssen. Das ist ein vernünftiger Mittelweg zwischen völlig offen und komplett geschlossen.
StarCoder: Das beste LLM für’s Coden
BigCode hat StarCoder von Entwicklern für Entwickler entwickelt. Der Trainingsprozess wurde öffentlich dokumentiert. Die Quellen der Datensätze wurden aufgelistet und ethische Bedenken bereits vor der Veröffentlichung adressiert.
Über 600 Programmiersprachen klingen übertrieben – und das sind sie auch, da die meisten Entwickler maximal fünf Sprachen nutzen. Aber die Unterstützung für Haskell und Fortran bedeutet, dass auch Randfälle abgedeckt sind. Irgendjemand da draußen wartet sicher noch COBOL-Code, und StarCoder kann auch dabei helfen.
Das 15B-Modell hält mit Konkurrenten von über 33B Parametern mithilfe. Das 3B-Modell ist so gut wie der alte 15B StarCoder. Jede Generation halbiert die Größe bei gleichbleibender Leistung. Irgendwann wird die Physik dem einen Riegel vorschieben. Aber noch sind wir nicht so weit.
„Fill-in-the-Middle“ funktioniert besser als bei Alternativen, weil StarCoder gezielt darauf trainiert wurde. Andere Modelle haben FIM erst nachträglich hinzugefügt. Architekturentscheidungen sind wichtig. Aber die Trainingsziele sind noch wichtiger.
Apache 2.0-Lizenz – nutze sie, wie du willst. Baue kommerzielle Produkte. Forke den Code. Trainiere Ableitungen. BigCode liefert das, was andere Projekte nur versprechen.
Yi Model: Bilinguale Sprachverarbeitung
01.AI hat Yi speziell für den chinesischen Markt entwickelt. Die zweisprachige Unterstützung Englisch-Chinesisch funktioniert hervorragend, weil beide Sprachen beim Training gleichermaßen berücksichtigt wurden. Die meisten „mehrsprachigen“ Modelle sprechen Englisch und den Rest nur bruchstückhaft. Yi beherrscht tatsächlich beide Sprachen.
Kontextfenster von 200k Token ermöglichen die Verarbeitung ganzer Bücher. Du wirst niemals 200k Token verbrauchen. Deine Nutzer auch nicht. Aber diesen Spielraum zu haben, verhindert Fehler durch Kontext-Abschneidung, falls mal ein Nutzer „Krieg und Frieden“ von Tolstoi in deinen Chatbot kopiert.
Yi-1.5 wurde gegenüber Yi-1.0 durch kontinuierliches Pre-Training mit weiteren 500B Token verbessert. Gleiches Basismodell. Aber bessere Daten bedeuten bessere Ergebnisse. Feinabstimmung ist weniger wichtig, als viele denken. Die Datenqualität zählt mehr.
Die Mathe- und Coding-Leistung wurde in neueren Versionen verbessert; wobei „verbessert“ hier den Sprung von „schlecht“ zu „akzeptabel“ meint. Yi wird GPT-4 bei komplexen Logik-Aufgaben nicht ersetzen. Es erledigt grundlegende Aufgaben, ohne dich zu blamieren.
Ebenfalls Apache 2.0-Lizenz, keine Einschränkungen – baue, was immer du willst. Veröffentliche es, wo du willst. 01.AI geht es mehr um Marktanteile als um Lizenzeinnahmen.
Qwen 3: Mehrsprachiges Coding und Mathematik
Qwen 3 von Alibaba reicht von 0,6B bis 235B Parametern und mischt dichte sowie MoE-Architekturen. Das 235B-Flaggschiff aktiviert nur 22B Parameter pro Token. Damit ist die Inferenz 90% günstiger, als wenn du alle 235B Parameter laufen lassen würdest. Die Rechnung geht auf, selbst wenn deine Produktionskosten es sonst nicht tun würden.
Dieses Mal wurden 36 Billionen Token für das Training genutzt – doppelt so viele wie bei Version 2.5. Die Kontextfenster erreichen 128K bei den größeren und 32K bei den kleinen Modellen. Das Update vom Juli 2025 hat das auf 1 Million Token hochgeschraubt, falls du ganze Codebasen in einem einzigen Prompt verarbeiten willst. Viel Erfolg mit deinem GPU-Budget.
Der hybride Denkmodus ist hier die eigentliche Sensation. Ein einziges Modell wechselt zwischen tiefgründiger Logik (Chain-of-Thought) und sofortigen Antworten. Du aktivierst diesen Modus einfach über einen Prompt-Tag. Komplexe Probleme erhalten die volle Ladung an logischer Analyse. Einfache Fragen verschwenden keine Rechenzyklen damit, so zu tun, als ob sie nachdenken würden. Ich habe gesehen, wie DevOps-Teams ihre Inferenzkosten gesenkt haben, indem sie Anfragen nach Komplexität geroutet haben, anstatt alles durch den Denkmodus zu jagen.
119 Sprachen gibt es mittlerweile. Das sind viermal so viele wie auf der Liste von 2.5. Englisch und Chinesisch funktionieren nach wie vor am besten. Der Rest liegt irgendwo zwischen „wirklich nützlich“ und „verarbeitet die Eingabe zumindest technisch korrekt“. Teste deine spezifischen Sprachpaare unbedingt selbst, bevor du den Stakeholdern Versprechungen machst.
Alle Modellgrößen nutzen Apache 2.0 – du musst also nicht mehr prüfen, welches Modell welche Lizenz benötigt. Feintunen, kommerziell vertreiben – du musst nicht erst einen Anwalt einschalten. Alibaba hat die rechtliche Lage seit Version 2.5 vereinfacht, und das ist für eine Implementierung oft wichtiger als jede Benchmark-Verbesserung.
Richtig interessant für den Produktivbetrieb wird es bei der MoE-Effizienz. Qwen3-30B-A3B passt auf eine einzige 80GB A100-GPU. Es läuft mit nur 3 Mrd. aktiven Parametern und erreicht dennoch die Benchmarks von QwQ-32B. Die Agenten-Fähigkeiten funktionieren in beiden Modi – inklusive Tool-Aufrufen, Browser-Automatisierung und Code-Ausführung. Die 30B-Variante erzielt 69,6 Punkte beim Tau2-Bench und spielt damit in derselben Liga wie proprietäre Modelle, die echtes Geld kosten.
DeepSeek V4: Effizientes Large-Scale-LLM
DeepSeek V3.2 wird mit insgesamt 685 Mrd. Parametern ausgeliefert, aktiviert aber nur 37 Mrd. pro Token. Die MoE-Architektur übernimmt hier die Schwerstarbeit. Dein Inferenz-Stack sieht lediglich ein 37B-Modell. Die Benchmarks zeigen hingegen etwas, das GPT-5 bei Logik-Aufgaben schlägt.
Die eigentliche Neuigkeit ist die DeepSeek Sparse Attention (DSA). Sie haben die Komplexität der „Attention“ von quadratisch auf nahezu linear gesenkt. Jag einen 128k-Kontext durch V3.1 und dein GPU-Speicher explodiert. Mit V3.2 passt es tatsächlich rein. Das ist kein Marketing-Geschwätz. Das ist algorithmische Feinarbeit, an die sich die meisten Labore nicht herantrauen, weil das Veröffentlichen neuer Features „sexier“ ist als das Optimieren interner Abläufe. DeepSeek liefert beides.
Multi-head Latent Attention komprimiert den KV-Cache, ohne deine Ausgabequalität zu opfern. In Kombination mit DSA ist die Inferenz bei langen Kontexten kein Glücksspiel mehr, sondern wird berechenbar.
V3.2 gibt es in zwei Varianten. Die Standard-„Thinking“-Variante integriert logisches Denken direkt in die Tool-Nutzung. Es ist das erste Modell der Reihe, das dies beherrscht. Einen Agenten bauen, der erst überlegen muss, welches Tool er aufruft? Das funktioniert jetzt. Die „Speciale“-Variante verzichtet komplett auf Tool-Support und dreht das logische Denken auf das Maximum auf. Goldmedaillen bei der IMO 2025 und IOI 2025. Programmierwettbewerbe und Mathe-Olympiaden, gelöst von einem Open-Weights-Modell. Wähle deinen Kompromiss.
Der 128k-Kontext bewältigt lange Dokumente. Englisch und Chinesisch zeigen eine starke Leistung. Andere Sprachen? Nutzbar, aber merklich schwächer.
Um das lokal zu betreiben, brauchst du H200- oder B200-GPUs. Plural. Selbst auf 4-Bit quantisiert, liegst du bei über 350 GB VRAM. Das ist kein Modell für den Laptop. vLLM und SGLang bieten Day-0-Unterstützung. Die Docker-Images sind bereits verfügbar. Stell es bereit, wenn du die nötige Hardware hast.
Die API-Preise liegen bei etwa $0,28/$0,42 pro Million Token Eingabe/Ausgabe. Vergleiche das mit den Preisen von Anthropic für Sonnet, und die Rechnung wird schnell sehr interessant.
Der Code unterliegt der MIT-Lizenz. Die Modellgewichte nutzen die DeepSeek-eigene Lizenz. Bei einem Jahresumsatz von unter 1 Mio. $ durch das Modell ist die kommerzielle Nutzung kostenlos. Liegt dein Umsatz darüber, solltest du mit ihnen Kontakt aufnehmen. Einfache Bedingungen schlagen das Wälzen von 47 Seiten Juristendeutsch, bei denen du dich fragst, ob du jemandem Geld schuldest.
Erste Schritte mit LangChain und Ollama
Ollama installiert lokale LLMs, ohne dass du in der Dependency Hell „Abhängigkeits-Hölle“ landest. Drei Befehle. Fertig. Diese Einfachheit ist wichtiger als jeder Benchmark-Wert. LangChain dient als Kleber zwischen den Modellen und deinen Anwendungen.
Mit der n8n-KI-Integration kannst du Workflows visuell erstellen. Entwickler hassen visuelle Programmierung – bis die Deadline vor der Tür steht. Dann schlägt Drag-and-Drop das hundertste Schreiben von Standard-Boilerplate-Code um Längen. Die Kombination aus LangChain und Ollama läuft stabil genug für den Produktivbetrieb.
Es gibt drei Bereitstellungs-Optionen: Hugging Face-Modelle im Free-Tier, Inference Endpoints für mehr Speed oder Ollama für die volle Kontrolle. Das Free-Tier reicht für Prototypen. Endpoints kosten echtes Geld, liefern aber echte Leistung. Bei Ollama musst du die Server selbst verwalten, eliminierst aber den Vendor-Lock-in.
Die KI-Agenten-Fähigkeiten von n8n ermöglichen mehrstufige Logikprozesse. Agenten rufen Tools auf, verarbeiten Ergebnisse und verketten Operationen. Wenn sie funktionieren, ist es magisch. Wenn nicht, dauert das Debuggen Stunden. Sorg also dafür, dass du Gesprächsprotokolle speicherst.
Das selbstgehostete AI Starter Kit bietet Vorlagen, die tatsächlich funktionieren. Copy-and-Paste-Beispiele sind besser als Dokumentationen, die voraussetzen, dass du weißt, was CORS bedeutet. Fang hier an – es sei denn, du liest gerne um Mitternacht API-Spezifikationen.
Guide für lokale LLM Deployments
Um ein lokales LLM zu betreiben, musst du vier Komponenten orchestrieren: das Modell, die Serving-Schicht, das Integrations-Framework und die Anwendungslogik. Jede Komponente kann auf andere Weise ausfallen. Teste gründlich.
Basis-LLM-Chain-knoten bearbeiten Standard-Workflows. Aktiviere die strukturierte Ausgabe. Füge Systemnachrichten hinzu. Nutze Ausdrücke wie {{ $now.toISO() }}, um Kontext einzuspielen. Die Konfiguration dauert Minuten. Das Debuggen dauert Tage, wenn etwas schiefgeht.
Chat-Trigger-Knoten eignen sich gut zum Testen. Echte Anwendungen benötigen tatsächliche Datenquellen: Datenbanken, Webhooks oder Dateiuploads. Trigger simulieren die Nutzung. Aber erst der Live-Betrieb zeigt die Probleme auf, die Trigger übersehen.
Das Ollama-Chat-Modell benötigt vier Einstellungen: Modellauswahl (Mistral-Nemo bietet die beste Balance zwischen Größe und Qualität), Temperatur auf 0.1 für Konsistenz, keepAlive auf 2h für die Speicherausdauer und aktiviertes Memory-Locking für maximale Geschwindigkeit. Lass alles andere auf Standard, außer du weißt genau, warum du es änderst.
Das Parsen strukturierter Ausgaben verhindert Chaos. JSON-Schemas definieren dabei das erwartete Format. Auto-fixing Parser bewältigen geringfügige Abweichungen. Beides hindert Modelle nicht daran, deine sorgfältig entworfenen Schemata zu ignorieren und trotzdem Freitext zurückzugeben.
Die Fehlerbehandlung unterscheidet Prototypen von Produktionssystemen. Füge „No Operation“-Knoten nach Fehlern ein. Implementiere eine Retry-Logik. Definiere Fallbacks. Modelle fallen aus. Netzwerke fallen aus. Alles fällt mal aus. Plane entsprechend.
Teste mit echten Nutzern. Synthetische Tests übersehen Randfälle, die echte Nutzer innerhalb von Minuten finden. Logge alles. Nutzer machen Dinge auf eine Weise kaputt, die du dir nicht vorstellen kannst. Deine Logs verraten dir, wie.
Open-Source-LLM FAQs
Welche Typen von Open-Source-LLMs gibt es?
Vortrainierte Modelle beherrschen die Sprache. Feinabgestimmte Modelle befolgen Anweisungen. Für die echte Arbeit benötigst du feinabgestimmte Versionen. Basismodelle dienen der Forschung und eigenen Fine-Tuning-Projekten, bei denen du die volle Kontrolle behalten willst.
Manche unterscheiden zwischen kontinuierlichem Pre-Training und Fine-Tuning. Der zugrunde liegende Prozess ist derselbe. Nur die Daten sind anders. Kontinuierliches Pre-Training fügt Domänenwissen hinzu. Fine-Tuning lehrt aufgabenspezifisches Verhalten. Beides ändert die Modellgewichte. Beides erfordert Rechenleistung.
Wie startet man mit einem Open-Source-LLM?
Installiere es lokal, wenn deine Hardware ausreicht. Ollama macht das völlig schmerzlos. Miete GPU-Server, wenn du größere Modelle benötigst. Cloud-Anbieter bieten vorkonfigurierte Instanzen an. Knöpfe drücken. Warten. Bereitstellen.
Server ohne dedizierte GPU kosten weniger. Die Inferenz läuft deutlich langsamer. Wähle basierend auf deinen Latenzanforderungen und Budgetbeschränkungen. Miete keine H100-GPUs für Chatbots, die nur zehn Nutzer am Tag bedienen.
Wie führt man ein LLM lokal aus?
Ollama plus OpenWebUI bringt dir dein eigenes ChatGPT lokal auf den Rechner. GPT4All eignet sich für eigenständige Apps. LM Studio bietet dir mehr Kontrolle. Jan fokussiert sich auf Datenschutz. NextChat baut konversationelle Oberflächen. Alle lassen sich in Minuten installieren. Und funktionieren ordentlich.
Wähle passend zu deinem Workflow. Wer das Terminal liebt, nutzt Ollama direkt. GUI-Nutzer bevorzugen LM Studio. Datenschutz-Fanatiker wählen Jan. Alle anderen nehmen das, was als Erstes funktioniert.
Wie viel RAM brauche ich, um ein LLM auszuführen?
4GB RAM lassen kleine Modelle nur sehr mühsam laufen. 8GB bewältigen 3B-7B-Modelle ganz ordentlich. 16GB eröffnen dir die meisten Optionen. Ab 32GB laufen auch größere Modelle ohne Swapping. GPU-VRAM ist wichtiger als der normale System-RAM. 8GB VRAM decken die meisten Consumer-Anwendungsfälle ab.
Für die Feinabstimmung brauchst du den 2-3x fachen Inferenzspeicher. Quantisierung reduziert die Anforderungen. GGUF-Formate tauschen Qualität gegen geringere Größe. Teste unbedingt, bevor du Hardware kaufst. Das „Kannst du es ausführen?“-Tool liefert dir Schätzwerte. Echte Tests bieten dir Gewissheit.
Was kostet es, ein Open-Source-LLM zu betreiben?
Lokales Deployment: kostenlos, wenn deine Hardware passt. VPS ohne GPU: 20-50 USD monatlich. GPU-Server: 50-200 USD (oder mehr) monatlich, je nach Spezifikation. Managed-Plattformen: Preislich vergleichbar mit OpenAI, aber du behältst die Kontrolle.
Versteckte Kosten können wehtun. Stromkosten beim lokalen Betrieb. Wartungsaufwand beim Self-Hosting. Backup-Infrastruktur für den Fall, dass das Hauptsystem ausfällt. Berechne die Gesamtkosten ehrlich. Vergleiche fair. Wähle weise.
Sind Open-Source-LLMs sicher?
Open Source bedeutet, dass Angreifer die Modellgewichte kennen. Sie können Schwachstellen ohne Ratenbeschränkungen austesten. Prompt-Injections werden einfacher. Datenvergiftung wird möglich. Modell-Inversions-Angriffe extrahieren Trainingsdaten. Jede Angriffstechnik funktioniert bei offenen Modellen besser.
Verteidigung bedeutet Arbeit. Eingangsvalidierung fängt die offensichtlichen Angriffe ab. Rate Limiting bremst Brute-Force aus. Monitoring erkennt Anomalien. Nichts davon hält einen wirklich entschlossenen Angreifer auf. Sicherheit durch Unkenntnis versagt. Sicherheit durch Sorgfalt funktioniert manchmal.
Warum Open-Source-LLMs kommerziell nutzen?
Datenschutz. Kostenkontrolle. Unabhängigkeit von Anbietern. Diese Gründe klingen abstrakt, bis dein API-Anbieter die Preise mitten im Quartal um 40% erhöht oder das Modell einstellt, auf dem dein Produkt basiert.
Kleinere Modelle bewältigen grundlegende Aufgaben gut genug. Feinabstimmung verbessert die Ergebnisse für spezifische Bereiche. Transparenz ermöglicht ordentliche Compliance-Audits. Individuelle Anpassungen unterstützen deine Brand Voice. Diese Fähigkeiten sind wichtiger als reine Benchmark-Rankings.
Die Leistung hinkt hinter GPT-4 und Claude hinterher. Der Ressourcenbedarf übersteigt den von verwalteten APIs. Die Wartung erfordert technisches Fachwissen. Diese Kompromisse schmerzen. Die Abhängigkeit von externen Anbietern schmerzt jedoch noch mehr.
Fazit
Das eine beste Open-Source-LLM existiert nicht. Llama 4 glänzt bei allgemeinen Aufgaben. Mistral AI ist auf den mobilen Einsatz optimiert. DeepSeek maximiert die Effizienz. Qwen 3 beherrscht mehrsprachiges Coding. StarCoder konzentriert sich voll auf die Programmierung. Jedes Modell gewinnt in seiner eigenen Kategorie.
Tools wie n8n und LangChain machen die Bereitstellung handhabbar. Du wirst trotzdem Zeit mit dem Debugging verbringen. Modelle halluzinieren nach wie vor. Nichts funktioniert perfekt. Alles funktioniert gut genug, wenn du realistische Erwartungen hast.