Yapay Zeka Yorumlanabilirliği (Interpretability) Nedir?
Yapay zeka yorumlanabilirliği (interpretability), bir modelin kararı içeriden nasıl verdiğini anlama çabasıdır. Nasıl çalıştığını örneklerle açıklıyoruz.

TL;DR: Yapay zeka yorumlanabilirliği (interpretability), bir yapay zeka modelinin bir çıktıyı içeriden hangi mekanizmayla ürettiğini anlama çabasıdır. Bugünün büyük dil modelleri büyük ölçüde "kara kutu" olduğu için, kararlarının arkasındaki nedenleri çözmek hem güvenlik hem de güven açısından kritiktir. Anthropic'in 2024'teki çalışmasında Claude 3 Sonnet'ten 34 milyon yorumlanabilir "özellik" çıkarılmıştır.
Yapay zeka yorumlanabilirliği nedir?
Yapay zeka yorumlanabilirliği, bir modelin verdiği kararın iç işleyişini insanların anlayabileceği biçimde açığa çıkarma alanıdır. İngilizcesi interpretability'dir. Temel soru basittir: Model bu cevabı neden verdi?
Sorunun kaynağı şudur: Büyük dil modelleri milyarlarca sayısal ağırlıktan oluşur ve bu ağırlıklar eğitim sırasında kendiliğinden şekillenir. Sonuçta ortaya, ne yaptığını gayet iyi bilen ama nasıl yaptığını kimsenin tam açıklayamadığı bir sistem çıkar. Buna kara kutu (black box) problemi denir.
Yorumlanabilirlik, bu kutunun içine bakıp nöronların, katmanların ve devrelerin hangi kavramı temsil ettiğini, bilginin model içinde nasıl aktığını çözmeyi amaçlar.
Mekanistik yorumlanabilirlik nasıl çalışır?
Alanın en aktif dalı mekanistik yorumlanabilirlik (mechanistic interpretability)'tir. Amacı, modeli tıpkı bir devre şeması gibi tersine mühendislikle çözmektir. Chris Olah öncülüğündeki Anthropic ekibi, 2021'de transformer modellerinde ilk kez somut, anlaşılır algoritmalar ("devreler") buldu.
İşin merkezindeki kavram özellik (feature)'tir: modelin içinde belirli bir kavrama (örneğin "Golden Gate Köprüsü" ya da "Python kodu") tepki veren etkinleşme yönü.
Özellikler modelde süperpozisyon halinde, yani üst üste binmiş şekilde saklanır — aynı frekansta yayın yapan birden çok radyo istasyonu gibi. Bir nöron tek bir kavramı değil, onlarca farklı kavramı aynı anda kodlayabilir.
Bu karmaşayı çözmek için araştırmacılar seyrek otokodlayıcı (sparse autoencoder, SAE) ve sözlük öğrenme (dictionary learning) tekniklerini kullanır. Bunlar, iç içe geçmiş sinyalleri tek anlamlı (monosemantic) bileşenlere ayırarak her özelliği insanın okuyabileceği hale getirir.
Interpretability neden bu kadar önemli?
Yorumlanabilirlik yalnız akademik bir merak değil; doğrudan yapay zeka güvenliğiyle ilgilidir. Bir modelin neden halüsinasyon ürettiğini, ne zaman yanıltıcı davrandığını ya da gizli bir önyargı taşıyıp taşımadığını ancak içine bakarak anlayabiliriz.
| Yaklaşım | Neye bakar | Örnek |
|---|---|---|
| Davranışsal test | Yalnız girdi-çıktı sonucu | "Doğru cevap verdi mi?" |
| Açıklanabilir YZ (XAI) | Hangi girdi cevabı etkiledi | "Hangi kelimeler önemliydi?" |
| Mekanistik yorumlanabilirlik | İçerideki gerçek mekanizma | "Hangi özellik/devre devreye girdi?" |
Anthropic CEO'su Dario Amodei, 2025'teki "The Urgency of Interpretability" yazısında bu alanı acil bir öncelik olarak tanımladı: modeller güçlendikçe, onları anlamadan kullanmanın riski de büyüyor.
Pratikte yorumlanabilirliğin sağladığı faydalar:
- Güvenlik denetimi: Modelin aldatma veya tehlikeli amaç barındırıp barındırmadığını saptama.
- Hata ayıklama: Yanlış çıktıların kök nedenini bulma.
- Yönlendirme (steering): Belirli bir özelliği güçlendirip zayıflatarak davranışı kontrol etme.
- Güven: Yüksek riskli alanlarda (sağlık, hukuk) kararın gerekçesini gösterebilme.
Golden Gate Claude neyi gösterdi?
2024'te Anthropic, "Scaling Monosemanticity" çalışmasıyla bu tekniği gerçek bir üretim modeline, Claude 3 Sonnet'e ölçekledi ve 34 milyon özellik çıkardı. Ardından çarpıcı bir deney yaptılar.
"Golden Gate Köprüsü"ne karşılık gelen özelliği yapay olarak güçlendirdiklerinde, model konu ne olursa olsun — yemek tarifi bile sorulsa — saplantılı biçimde köprüden bahsetmeye başladı. Golden Gate Claude adı verilen bu deney, soyut "özellik" kavramının gerçek ve müdahale edilebilir olduğunu somut biçimde kanıtladı.
Bu, bir modelin davranışını dışarıdan prompt'la değil, içerideki temsilleri doğrudan ayarlayarak değiştirmenin mümkün olduğunu gösterdi. 2025'te aynı ekip, bilginin katmanlar arası akışını izleyen devre takibi (circuit tracing) yöntemleriyle bunu daha da ileri taşıdı.
Sıkça Sorulan Sorular
Yorumlanabilirlik ile açıklanabilir yapay zeka (XAI) aynı şey mi? Tam olarak değil. Açıklanabilir YZ (XAI) genellikle "hangi girdi sonucu ne kadar etkiledi" gibi dışarıdan, sonradan açıklamalar üretir. Mekanistik yorumlanabilirlik ise modelin içindeki gerçek hesaplama mekanizmasını — özellikleri ve devreleri — çözmeye çalışır.
Süperpozisyon ne demek? Modelin, nöron sayısından çok daha fazla kavramı, bu kavramları yüksek boyutlu uzayda neredeyse dik yönlere yerleştirerek üst üste saklamasıdır. Bir nöron tek bir anlam taşımaz; bu yüzden ham nöronlara bakmak yetmez, özellikleri ayrıştırmak gerekir.
Yorumlanabilirlik neden yapay zeka güvenliği için önemli? Çünkü bir modeli güvenle kullanmak için ne zaman ve neden hata ya da aldatma yapabileceğini bilmek gerekir. İçeride neyin olduğunu görmeden, modelin güvenilir olduğunu yalnızca dışarıdan test ederek varsaymak zorunda kalırız.
Modeller artık tamamen yorumlanabilir mi? Hayır. 34 milyon özellik bile devasa bir modelin yalnızca bir kısmını kapsar ve alan henüz erken aşamadadır. Yorumlanabilirlik, hızla ilerleyen ama tamamlanmaktan uzak, aktif bir araştırma alanıdır.
