Sakana Conductor: 7B RL-Modell für Agent-Orchestrierung

Sakana AI hat Ende April 2026 Conductor veröffentlicht, ein 7-Milliarden-Parameter-Modell, das per Reinforcement Learning trainiert wurde, um einen Pool aus Frontier-Agenten in natürlicher Sprache zu orchestrieren. Conductor löst Aufgaben nicht selbst, sondern entscheidet, welcher Agent welche Teilaufgabe übernimmt und welcher Kontext dafür sichtbar ist. Dieser Leitfaden zeigt Schritt für Schritt, warum ein kleiner Router ein großes Monolith-Modell schlägt, was die Benchmarks sagen und wie Sie das Muster in Ihren Automatisierungs- und Mobile-Agenten-Stack einbauen.

Die meisten produktiven KI-Systeme reichen eine ganze Aufgabe an ein großes Modell und hoffen, dass es dem Plan folgt. Sakanas Conductor wettet umgekehrt. Ein kleines 7B-Modell lernt per Reinforcement Learning zu delegieren, und eine Flotte aus Frontier-Agenten (Claude, GPT, Gemini, offene Spezialisten) wird zur Ausführungsschicht. Die Zahlen sind deutlich: 83,9 % auf LiveCodeBench und 87,5 % auf GPQA-Diamond, jeweils über jedem Einzelarbeiter im Pool.

Die 30-Sekunden-Version

Conductor ist ein 7B-Reinforcement-Learning-Router, der pro Teilaufgabe einen Frontier-Agenten aufruft. Er wählt den Agenten, schreibt den Prompt und formt den Kontext, und schlägt damit jedes einzelne Frontier-Modell für sich. Die Arbeitseinheit verschiebt sich von einem Modell zu einem kleinen Router plus einem mehrgliedrigen Worker-Pool.

Was Conductor tatsächlich tut

Conductor ist nicht der Agent, der die Arbeit erledigt. Er ist der Agent, der entscheidet, wer die Arbeit erledigt. Jede Anfrage läuft durch dieselbe Schleife:

Anfrage in Teilaufgaben zerlegen, so wie es eine Senior-Entwicklerin tun würde.
Pro Teilaufgabe den passenden Agenten aus dem Pool nach Fähigkeit und Kosten wählen.
Einen scharfen Teilaufgaben-Prompt schreiben und nur den Kontext weitergeben, den der Agent braucht.
Ergebnisse einsammeln, bewerten und entscheiden: nochmal, eskalieren oder ausliefern.

Der letzte Schritt ist es, den die meisten Pipelines verfehlen. Conductor verteilt nicht einfach und hofft. Das RL-Trainingssignal belohnt das richtige Endergebnis, also lernt der Router, wann ein günstiger Agent reicht und wann er auf ein Frontier-Modell eskalieren soll.

Warum ein kleiner Router gewinnt

Mit 7 Milliarden Parametern ist Conductor etwa 1 % so groß wie die größten Frontier-Modelle, und genau das ist der Punkt. Ein kleiner Dispatcher schaltet drei Dinge frei, die ein monolithischer Agent nicht kann:

Niedrigere Kosten pro Aufgabe

Die meisten Teilaufgaben brauchen kein Frontier-Modell. JSON umformatieren, ein Tool wählen oder einen Absatz zusammenfassen kann ein günstiger Worker. Wenn nur die schweren Teilaufgaben an teure Modelle gehen, sinken die Kosten, ohne dass das Endergebnis leidet.

Niedrigere Latenz auf der Entscheidungsschleife

Ein 7B-Modell passt auf eine einzige GPU. Routing-Entscheidungen fallen in deutlich unter 100 ms, sodass der Orchestrator nicht zum Engpass wird. Der langsamste Teil bleibt der Worker, der die eigentliche Arbeit tut, und genau so soll es sein.

Spezialisierung schlägt Generalisierung

Ein Coding-Agent für Code, ein Such-Agent für Retrieval, ein Mathematik-Agent für Beweise. Conductor lernt, welcher Worker worin gut ist, und routet entsprechend. Das ist näher dran an echter Teamarbeit, als eine einzige Senior-Entwicklerin alles machen zu lassen.

Der Sprung lautet: weg von "ein Modell für alles" hin zu "ein kleiner Router und ein mehrgliedriger Worker-Pool". Der Router ist das Produkt. Die Worker sind austauschbar.

Das Benchmark-Bild

Sakana hat Zahlen aus drei reasoning-lastigen Benchmarks veröffentlicht. Wichtig sind nicht die absoluten Werte. Wichtig ist, dass der orchestrierte Pool jeden einzelnen Worker im selben Pool durchgehend schlägt:

Benchmark	Bester Einzel-Worker	Conductor (Pool)	Delta
LiveCodeBench	78,4 %	83,9 %	+5,5
GPQA-Diamond	82,1 %	87,5 %	+5,4
AIME-2026 (Mathematik)	71,0 %	76,2 %	+5,2

Ein konstanter Vorsprung von rund fünf Punkten in sehr unterschiedlichen Domänen ist das Signal. Der Router lernt eine übertragbare Fähigkeit, statt einen Benchmark auswendig zu lernen.

Was sich für Ihren Automatisierungs-Stack ändert

Wenn Sie bereits mit n8n, Claude oder offenen Modellen bauen, ist die praktische Änderung klein, aber real. Die Orchestrierungs-Schicht ist kein statisches if-else über Modellnamen mehr. Sie ist selbst eine gelernte Komponente. Den breiteren Trend haben wir in der Orchestrierungs-Ära des agentischen Codings beschrieben, und Conductor ist bisher das sauberste offene Argument dafür.

Der Umbau ist im Konzept geradlinig:

Single-LLM-Knoten in Ihren n8n-Flows durch einen Router-Aufruf ersetzen, der den gewählten Worker plus Prompt zurückgibt.
Bestehende Tools und Skills behalten. Der Router ändert sie nicht, er entscheidet nur, wer sie nutzt.
Kosten und Erfolg pro Teilaufgabe in einer einzigen Logzeile festhalten, damit der Router später ein Trainingssignal hat.

Eine mobil-zuerst-Variante dieses Musters

Die 7B-Größe ist kein Zufall. Ein so kleines Modell läuft heute auf einer Workstation und morgen auf der nächsten Generation On-Device-Inferenz. Damit passt ein Conductor-artiger Router perfekt zu dem mobilen Muster, das wir in Hermes Workspace Mobile und Agenten-Orchestrierung am Handy beschrieben haben: Das Gerät hält den Router und die Freigabe-Schicht, die schweren Worker bleiben in der Cloud.

Warum das für mobile Automatisierung zählt

Ein kleiner Router auf dem Gerät bringt private Routing-Entscheidungen, sofortige Freigaben und eine viel kürzere Schleife für die 80 % der Teilaufgaben, die kein Frontier-Modell brauchen. Das Handy ist nicht mehr dummer Chat-Client, sondern wird zum Orchestrator.

Fünf praktische Anwendungsfälle

n8n-Flows, die das günstigste passende Modell wählen

Den fixen Modell-Knoten durch einen Router-Aufruf ersetzen. Der Router nimmt Gemini Flash für die einfachen 90 %, Claude oder GPT-5 für den Rest, und der Flow bleibt unverändert.

Mobiler Assistent mit Routing auf dem Gerät

Das Handy fährt den Router lokal. Schnelle Umformatierung oder Klassifikation bleibt am Gerät. Schweres Reasoning ruft einen Cloud-Worker auf, mit biometrischer Freigabe für alles, was Geld kostet oder eine Nachricht sendet.

SaaS-Agenten-Produkte mit gesicherter Marge

Wenn Ihr Produkt bei jeder Anfrage ein Frontier-Modell aufruft, hängt Ihre Bruttomarge an einer fremden Preisliste. Ein gelernter Router verschiebt den Großteil des Traffics auf günstigere Worker und hält die Qualität, sodass Marge wieder steuerbar wird.

Code Review und Refactorings

Conductor-artiges Routing pro Datei, pro Sprache oder pro fehlgeschlagenem Test. Ein spezialisierter Agent prüft das SwiftUI-Diff, ein anderer das Terraform-Diff, ein dritter schreibt den Migrationsplan. Derselbe Router verbindet sie.

Customer-Support-Triage

Der Router entscheidet zwischen Wissensdatenbank-Treffer, LLM-Entwurf und Eskalation an einen Menschen. Mit der Zeit lernt er, welcher Kanal welchen Tickettyp am besten löst, und die Kosten pro Ticket sinken, ohne Qualitätsverlust.

So starten Sie

1Lesen Sie den öffentlichen Conductor-Bericht von Sakana, um Trainings-Setup und API zu verstehen.
2Wählen Sie einen bestehenden Workflow, der genau ein LLM aufruft. Stecken Sie diesen Aufruf hinter einen Router-Stub, der vorerst "dasselbe Modell" zurückgibt.
3Fügen Sie einen zweiten Worker hinzu (ein günstigeres Modell). Lassen Sie den Router protokollieren, welcher Worker welche Teilaufgabe gemacht hat und wie es lief.
4Sobald ein paar Wochen Logs vorliegen, trainieren oder regeln Sie den Router so, dass leichte Teilaufgaben standardmäßig beim günstigen Worker landen.

Falls Sie den Agenten-Raum noch sortieren, erklärt unser OpenClaw-101-Leitfaden für Einsteiger die Bausteine eines Agenten-Stacks: Tools, Skills, Berechtigungen, Gedächtnis. Conductor sitzt eine Schicht darüber, ergibt aber erst Sinn, wenn diese Teile vorhanden sind.

Fazit

Die spannende Front 2026 ist nicht ein größeres Einzel-Modell. Sie ist bessere Orchestrierung der Modelle, die wir schon haben. Sakanas Conductor ist bisher die sauberste Demonstration, dass ein kleiner, gelernter Router jedes einzelne Frontier-Modell schlägt, und zwar günstig genug, dass eine mobile und Edge-Geschichte daran anschlussfähig ist.

Die Frage für Ihren nächsten Sprint ist einfach. Wo zahlen Sie heute Frontier-Preise für Teilaufgaben, die ein kleinerer Worker erledigt hätte, und was ändert sich, wenn ein Router diese Entscheidung für Sie trifft?