Selbstlernende AI-Agenten: Speicher- und Lernarchitektur

Selbstlernende AI-Agenten sind keine reinen Prompt-Werkzeuge mehr. Sie sind Systeme, die mit jeder Nutzung besser werden, und der Grund liegt in der Speicher- und Lernarchitektur unter dem Prompt. Dieser Leitfaden erklärt Schritt für Schritt die zwei Grundansätze, die drei Speicherebenen, die jeder ernsthafte Agent nutzt, und wie führende Systeme wie Claude Code, OpenClaw und der Hermes-Agent das heute in Produktion umsetzen.

Der Begriff "selbstlernend" ist überladen, deshalb lohnt sich eine klare Abgrenzung. Es geht nicht um Agenten, die ihre Gewichte live nachtrainieren. Es geht um Agenten, die zwischen Sessions verändern, was sie wissen, ohne dass jemand einen Prompt von Hand editiert. Klingt klein, ist aber der Unterschied zwischen einem Bot, dem Sie jeden Montag alles neu erklären, und einer Kollegin, die sich an die Entscheidungen der letzten Woche erinnert.

Die 30-Sekunden-Version

Ein selbstlernender Agent braucht drei Dinge: Speicher für Fakten und Präferenzen, Skills für Domänenwissen und einen durchsuchbaren Verlauf der rohen Chat-Logs. Stand der Technik 2026 ist, alle drei mit Hintergrund-Prozessen zu pflegen, sodass der Agent ohne Eingriff klüger wird.

Zwei Ansätze für selbstlernende Agenten

Die meisten Designs lassen sich in eines von zwei Lagern einsortieren. Die Bezeichnungen schwanken zwischen Papieren, die Trennung bleibt aber stabil.

Auto Agent: die eigene System-Datei umschreiben

Der Auto-Agent-Ansatz konzentriert sich darauf, dass der Agent seine eigenen Anweisungen umschreibt. Er bewertet sich gegen eine einzelne System-Datei und editiert diese Datei am Ende jedes Laufs. Das wirkt wie ein leichter Verwandter von Fine-Tuning, nur dass das Modell und die Infrastruktur unverändert bleiben. Es ändert sich allein der Prompt. Das ist einfach und gut zu debuggen, aber die System-Datei wächst schnell und Konflikte verstärken sich.

Selbstlernender Speicher: schreiben, was du getan hast, beim nächsten Mal lesen

Der zweite Ansatz liegt näher daran, wie Menschen arbeiten. Der Agent schreibt seine Schritte und das erhaltene Feedback in einen Speicher und liest beim nächsten Aufruf aus diesem Speicher. Das ist das Muster des In-Context-Learning und der Ansatz, der tatsächlich in Produktion läuft. Er skaliert weiter als eine einzelne Datei umzuschreiben, weil Speicher aufgeteilt, indiziert und ausgedünnt werden kann.

Die drei Ebenen eines selbstlernenden Speichers

Ein selbstlernender Agent steht auf drei klar getrennten Speicherebenen. Jede Ebene beantwortet eine andere Frage und hat ein anderes Zugriffsmuster.

Ebene	Was darin liegt	Wann sie geladen wird
Fakten und Präferenzen	Nutzerprofil, Projektregeln, wiederkehrende Vorgaben	Heißer Pfad bei jedem Aufruf, warme Dateien nur bei Bedarf
Skills	Wiederverwendbare Anleitungen für eine Aufgabe oder Domäne	Wenn der Agent den Aufgabentyp erkennt
Verlauf	Rohe Chat-Logs aus früheren Sessions	Bei expliziter Suche oder wenn Kontext fehlt

Fakten und Präferenzen

Mit dieser Ebene starten die meisten Projekte. Eine kleine Hot-Memory-Datei liegt dauerhaft im System-Prompt: Name der Nutzerin, eingesetzter Stack, wichtige Regeln. Daneben sitzt eine größere Warm-Memory-Datei, die nur eingelesen wird, wenn die Anfrage einen Hinweis darauf gibt. Heiß und warm zu trennen ist der größte einzelne Hebel, weil der System-Prompt klein bleibt und die warme Datei wachsen darf.

Skills

Skills sind das Domänenwissen des Agenten. Ein Skill kann sein "wie schreibe ich einen Stripe-Webhook-Handler in dieser Codebase" oder "wie formuliere ich eine Follow-up-Mail für einen Sales-Lead". Sie sind wiederverwendbar, scharf umgrenzt und werden nur geladen, wenn der Agent die Aufgabe erkennt. Ohne eine Skill-Ebene startet jede neue Aufgabe bei Null, und genau deshalb wirken Agenten mit flachem Prompt, als würden sie nie dazulernen.

Verlauf

Die letzte Ebene ist der rohe Chat-Verlauf: jede Session, jeder Schritt, jeder Tool-Aufruf. Der Agent lädt ihn nicht standardmäßig; er sucht darin, wenn Speicher fehlt oder wenn die Nutzerin fragt, "was haben wir letzte Woche entschieden?". Schwierig ist nicht das Speichern, sondern die schnelle, relevanzgewichtete Suche über lange Logs.

Wie führende Systeme das umsetzen

Auf dem Whiteboard sieht das Muster überall gleich aus, in der Produktion unterscheiden sich die Implementierungen aber spannend. Drei Systeme lohnen sich.

Claude Code: AutoDream und der Sprung auf drei Ebenen

Claude Code startete mit einer einzelnen System-Datei, dem CLAUDE.md-Ansatz, den viele kennen. Als die Datei zu groß wurde, wechselte die Architektur auf die drei oben beschriebenen Ebenen. Das spannendste Feature ist AutoDream: nach Sessionende läuft ein Hintergrundprozess, sieht die Konversation durch, räumt veraltete Fakten weg und reorganisiert den Speicher. Bekannte Schwachpunkte sind die Suche im Chat-Verlauf während des Codings sowie das Anlegen wirklich neuer Skills, beides bleibt bisher manuell.

OpenClaw: Speicher mit Suche im Mittelpunkt

OpenClaw rückt die Suche ins Zentrum. Speicherdateien und ein generisches Such-Tool sind erstklassige Bürger, und der Agent kann kuratierten Speicher und rohen Chat-Verlauf mit demselben Aufruf durchsuchen. Das verbessert die Trefferquote spürbar. Der Preis: es gibt keinen autonomen Hintergrundprozess, der eigenständig neue Skills oder Memory-Einträge anlegt; jemand muss den Vorgang anstoßen. Wer mit dem Stack neu ist, findet im OpenClaw-101-Leitfaden für Einsteiger die Bausteine.

Hermes-Agent: asynchrone Sub-Agenten lernen mit

Der Hermes-Agent geht weiter und entfernt den menschlichen Trigger. Er zählt die Schritte des Hauptagenten; vergehen zehn Schritte ohne neuen Skill, springt ein Sub-Agent ein, analysiert die Trial-and-Error-Arbeit und legt jedes wiederkehrende Muster als neuen Skill ab. Die Hauptschleife wird nie blockiert. Genauso läuft es für den allgemeinen Speicher: alle zehn Turns extrahiert ein Memory-Review-Agent Präferenzen und Vorgaben aus der Konversation und schreibt sie zurück. Neue Skills gehen vor dem Mergen durch einen Safety-Scan. Die mobile Variante dieser Idee zeigt unser Beitrag zu Hermes Workspace Mobile und Agenten-Orchestrierung am Handy.

Der spannende Hebel liegt nicht darin, den Agenten zur Antwortzeit klüger zu machen. Er liegt darin, das System zwischen den Anfragen klüger zu machen, mit Hintergrundprozessen, die niemand bemerken muss.

Brauchen Sie wirklich volle Autonomie?

Volle Autonomie ist gerade in Mode, ist aber nicht immer der richtige Trade-off. Hintergrund-Speicherjobs, Sub-Agenten und Review-Schleifen verbrennen extra Tokens, und ein Großteil davon beeinflusst die nächste Antwort gar nicht.

Ist der Workflow repetitiv und gut verstanden, gewinnt eine deterministische Pipeline meist auf Kosten und Berechenbarkeit.
Hat der Workflow viele Sonderfälle, zahlt sich selbstlernender Speicher aus, weil sich der Agent ohne Prompt-Arbeit spezialisiert.
Ist der Workflow interaktiv, ist die Nutzerin schon eine kostenlose Signalquelle; ein kurzer Speicher-Update am Sessionende reicht oft.

Direkt daneben steht die Orchestrierungs-Frage. Sobald Sie einen speicherbewussten Agenten haben, wird wichtig, wer ihn wann aufruft. Diese Seite haben wir im Sakana-Conductor-Leitfaden für Multi-Agenten-Orchestrierung beleuchtet.

Selbst einen selbstlernenden Agenten bauen

Wenn Sie sich für Selbstlernen entscheiden, ist die Reihenfolge über Stacks hinweg langweilig stabil:

Mit Hot- und Warm-Memory-Dateien starten. Keine Skills, keine Verlaufssuche, nur zwei Dateien, aus denen der Agent liest.
Einen Skills-Ordner ergänzen und einen Skill nur laden, wenn der Aufgabenname passt. Skills nicht gleich automatisch anlegen lassen, bevor der Rest stabil läuft.
Den rohen Chat-Verlauf ab Tag eins auf Platte schreiben, auch ohne Suche. Was Sie nicht aufgeschrieben haben, holen Sie nicht zurück.
Einen kleinen Hintergrundjob einbauen, der jede Session in ein bis zwei Fakten zusammenfasst und an den Warm-Memory hängt. Das ist die kleinste nützliche Variante von AutoDream.
Erst danach einen Sub-Agenten erwägen, der neue Skills vorschlägt. Diese gehen immer durch einen Review-Schritt, bevor sie produktiv werden.

Was Sie messen sollten

Die ehrliche Kennzahl lautet "wie oft hat der Agent etwas Gelerntes wiederverwendet?". Wenn Ihre Logs das nicht beantworten können, verdient die Speicher-Schicht ihr Geld noch nicht. Tokenkosten und Latenz sind wichtig, aber Wiederverwendung ist der Frühindikator.

Fazit

Selbstlernende AI-Agenten sind kein Forschungsspielzeug mehr. Die Speicher- und Lernarchitektur konvergiert auf drei Ebenen (Fakten, Skills, Verlauf), und die aktuelle Front 2026 automatisiert die Updates mit Hintergrundprozessen. Wählen Sie die Autonomie, die Ihr Workflow tatsächlich braucht, bauen Sie die Ebenen in der richtigen Reihenfolge auf und messen Sie Wiederverwendung statt reiner Aktivität. Das ist der Weg vom klugen Prompt zum Agenten, der mit der Zeit wirklich besser wird.