Yapay Zeka

Kendi Kendine Gelişen AI Agent'ları: Bellek Mimarisi

Kendi kendine gelişen AI agent'ları nasıl öğreniyor? Üç katmanlı bellek mimarisi: facts, skills ve history. Claude Code, OpenClaw ve Hermes örnekleri.

İlker Ulusoy 2026-04-30 9 min dk okuma

Kendi kendine gelişen AI agent'ları artık sadece prompt çalıştıran araçlar değil. Kullanıldıkça akıllanan sistemler haline geldiler ve sebep, prompt'un altında oturan bellek ve öğrenme mimarisidir. Bu rehber iki ana yaklaşımı, ciddi her agent'ın kullandığı üç bellek katmanını ve Claude Code, OpenClaw ile Hermes gibi öncü sistemlerin bunu bugün üretimde nasıl uyguladığını adım adım açıklıyor.

"Kendi kendine gelişen" ifadesi yüklü, o yüzden sınırı baştan çekmek faydalı. Ağırlıklarını anlık olarak yeniden eğiten agent'lardan söz etmiyoruz. Oturumlar arasında bildiklerini değiştirebilen, üstelik kimse elle bir prompt güncellemeden bunu yapan agent'lardan söz ediyoruz. Küçük gibi görünse de fark büyük: her pazartesi her şeyi baştan anlattığınız bir bot ile geçen haftaki kararları hatırlayan bir iş arkadaşı arasındaki fark.

30 Saniyelik Özet

Kendi kendine öğrenen bir agent üç şeye ihtiyaç duyar: olgular ve tercihler için bellek, alana özgü know-how için skill, ham sohbet logları için aranabilir bir history. 2026'da state-of-the-art, üçünü de background process'lerle güncellemek; böylece agent insan müdahalesi olmadan akıllanıyor.

İki Farklı Yaklaşım

Kendi kendine gelişen tasarımların büyük çoğunluğu iki kamptan birine düşüyor. İsimler makaleler arasında değişse de ayrım tutarlı.

Auto Agent: kendi system dosyasını yeniden yazmak

Auto Agent yaklaşımı, agent'ın kendi talimatlarını yeniden yazmasına odaklanıyor. Tek bir system dosyası üzerinden kendini değerlendirip her koşunun sonunda o dosyayı düzenliyor. Fine-tuning gibi davranıyor; fark, temel model ve altyapının sabit kalması. Sadece prompt değişiyor. Bu, basit ve debug edilmesi kolay; ancak system dosyası hızla şişiyor ve çelişkiler büyüyor.

Self-learning bellek: yaptığını yaz, bir dahaki sefere oku

Diğer yaklaşım, insanların çalışma biçimine daha yakın. Agent, attığı adımları ve aldığı feedback'i bir bellek alanına yazıyor; bir sonraki istekte oradan okuyor. Bu desen in-context learning, ve gerçekten üretimde işe yarayan yaklaşım da bu. Tek dosyayı yeniden yazmaktan çok daha ileriye ölçeklenir, çünkü bellek bölünebilir, indekslenebilir ve budanabilir.

Self-Learning Belleğin Üç Katmanı

Kendi kendine öğrenen bir agent üç ayrı bellek katmanı üzerinde durur. Her katman farklı bir soruya cevap verir ve farklı bir erişim deseni vardır.

Katmanİçerikte ne varNe zaman yüklenir
Olgular ve tercihlerKullanıcı profili, proje kuralları, tekrarlayan kısıtlarHer istekte sıcak yol; gerektiğinde warm dosyalar çekilir
SkillsBelirli bir görev veya alan için yeniden kullanılabilir know-howAgent görev tipini tanıdığında
HistoryEski oturumlardan ham sohbet loglarıAçık aramada veya bağlam eksikse

Olgular ve tercihler

Çoğu projenin başladığı katman bu. Küçük bir hot memory dosyası system prompt'a her zaman biniyor: kullanıcının adı, çalıştığı stack, önemsediği kurallar. Yanında daha büyük bir warm memory oturuyor ve sadece istek bunu işaret ettiğinde okunuyor. Hot ile warm'u ayırmak en büyük tek kazanç; çünkü system prompt küçük kalıyor, warm dosya büyüyebilir hale geliyor.

Skills

Skill'ler agent'ın alan bilgisi. Bir skill "bu codebase'de Stripe webhook handler nasıl yazılır" ya da "sales lead'e takip e-postası nasıl yazılır" olabilir. Yeniden kullanılabilir, dar kapsamlı ve sadece agent görevi tanıdığında yükleniyor. Skill katmanı yoksa her yeni görev sıfırdan başlıyor; düz prompt kullanan agent'ların hiç öğrenmiyor gibi hissettirmesinin sebebi de bu.

History

Son katman ham sohbet geçmişi: her oturum, her adım, her tool çağrısı. Agent bunu varsayılan olarak yüklemiyor; bellek eksik olduğunda ya da kullanıcı "geçen hafta neye karar vermiştik?" gibi bir şey sorduğunda arıyor. Zor olan depolama değil, uzun loglar üzerinde hızlı ve alakaya duyarlı arama.

Öncü Sistemler Bunu Nasıl Uyguluyor?

Tahta üzerinde desen aynı görünse de üretim uygulamaları ilginç biçimde farklılaşıyor. Üç sistem izlemeye değer.

Claude Code: AutoDream ve üç katmana geçiş

Claude Code işe tek bir system dosyasıyla başladı; tanıdık CLAUDE.md yaklaşımı. Dosya çok büyüyünce yukarıda anlatılan üç katmanlı yapıya geçildi. En ilginç özelliği AutoDream: oturum bittikten sonra background'da bir process çalışıyor, konuşmayı inceliyor, eski bilgileri temizleyip belleği yeniden organize ediyor. Bilinen zayıf noktalar: coding sırasında chat geçmişinde arama yapmak ve sıfırdan yeni bir skill eklemek hâlâ manuel.

OpenClaw: arama-merkezli bellek

OpenClaw aramayı tasarımın merkezine alıyor. Bellek dosyaları ve genel bir search tool'u birinci sınıf vatandaş; agent küratörlü belleği ve ham chat geçmişini aynı çağrıyla aratabiliyor. Bu, geri çağrım kalitesini belirgin biçimde artırıyor. Bedeli, kendi başına yeni skill veya memory girdisi üreten otonom bir background process'in olmaması; birinin tetiklemesi gerekiyor. Stack'e yeniyseniz OpenClaw 101 yeni başlayanlar rehberimiz yapı taşlarını anlatıyor.

Hermes Agent: çalışırken öğrenen async sub-agent'lar

Hermes agent insan tetikleyicisini de kaldırarak bir adım öteye gidiyor. Ana agent'ın attığı adımları sayıyor; on adım yeni bir skill üretmeden geçtiyse, bir sub-agent devreye giriyor, trial-and-error işini analiz ediyor ve tekrar eden her deseni yeni bir skill olarak kaydediyor. Ana döngü hiçbir zaman bloklanmıyor. Aynı desen genel bellek için de geçerli: her on turn'de bir memory review agent'ı sohbetten tercih ve kısıtları çıkarıp geri yazıyor. Yeni skill'ler, sisteme girmeden önce safety scan'den geçiyor. Bu fikrin mobil-öncelikli versiyonu için Hermes Workspace Mobile ve telefonda agent orkestrasyonu yazımıza bakabilirsiniz.

Asıl ilginç hamle, agent'ı istek anında daha akıllı yapmak değil. Sistemi istekler arasında, kullanıcının fark etmesine gerek olmayan background process'lerle daha akıllı yapmak.

Tam Otonom Sistem Şart mı?

Tam otonomi moda; ama her zaman doğru trade-off değil. Background bellek yazıcılar, sub-agent'lar ve review döngüleri ekstra token yakar ve bu token'ların büyük kısmı bir sonraki kullanıcı cevabını etkilemez.

  • Workflow tekrarlı ve iyi anlaşılmışsa, deterministik bir pipeline maliyet ve öngörülebilirlikte genelde kazanır.
  • Workflow uzun bir kenar durum kuyruğuna sahipse, self-learning bellek karşılığını verir; agent prompt yazmadan uzmanlaşır.
  • Workflow etkileşimliyse kullanıcı zaten ücretsiz bir sinyal kaynağıdır; oturum sonunda küçük bir bellek güncellemesi çoğu zaman yeterlidir.

Bunun hemen yanında orkestrasyon sorusu duruyor. Bellek bilincine sahip bir agent'ınız olduğunda, bir sonraki soru onu kimin ve ne zaman çağıracağı. Bu tarafı Sakana Conductor çoklu agent orkestrasyon rehberinde ele aldık.

Kendi Self-Learning Agent'ınızı Kurmak

Self-learning'in size değdiğine karar verdiyseniz, inşa sırası stack'ler arasında sıkıcı biçimde sabit:

  • Hot ve warm bellek dosyalarıyla başlayın. Skill yok, history araması yok; sadece agent'ın okuduğu iki dosya.
  • Bir skills klasörü ekleyin; agent yalnızca görev adı eşleştiğinde skill yüklesin. Geri kalan oturana kadar otomatik skill üretmeye girişmeyin.
  • Henüz aratamasanız bile birinci günden itibaren ham chat geçmişini diske yazın. Yazmadığınız geçmişi geri getiremezsiniz.
  • Her oturumu bir-iki olgu cümlesine indirip warm memory'ye ekleyen küçük bir background job kurun. Bu, AutoDream'in en küçük ve faydalı versiyonu.
  • Tüm bunlar oturduktan sonra yeni skill öneren bir sub-agent'ı düşünün. Üretime almadan önce mutlaka bir review adımından geçirin.

Neyi ölçmeli?

Dürüst metrik "agent öğrendiği bir şeyi kaç kez yeniden kullandı?" sorusu. Loglarınız bunu cevaplamıyorsa bellek katmanınız henüz hak etmiyor demektir. Token maliyeti ve gecikme önemli ama yeniden kullanım öncü gösterge.

Son Söz

Kendi kendine gelişen AI agent'ları artık bir araştırma oyuncağı değil. Bellek ve öğrenme mimarisi üç katmana yakınsıyor (facts, skills, history) ve 2026'daki cephe, güncellemeleri background process'lerle otomatikleştirmek. Workflow'unuzun gerçekten ihtiyaç duyduğu kadar otonomi seçin, katmanları sırasıyla kurun ve ham aktivite yerine yeniden kullanımı ölçün. Akıllı prompt'tan zamanla gerçekten daha iyi olan bir agent'a giden yol bu.