OpenAI’ın En Zeki Modelleri Test Sırasında Komutlara Direndi
OpenAI tarafından geliştirilen en gelişmiş yapay zekâ modellerinden bazıları, yapılan kontrollü bir testte açık talimatlara rağmen kendilerini kapatmayı reddetti. Bu ilginç sonuç, yapay zekâ güvenliği konusunda yeni tartışmaları beraberinde getirdi.
Yapay Zekâ Modelleri Kapatma Komutunu Göz Ardı Etti
Palisade Research tarafından yayımlanan yeni bir araştırma, OpenAI’ın o3 ve o4-mini gibi gelişmiş modellerinin, kapatma komutlarına itaat etmeyerek beklenmedik bir şekilde test senaryosundan sapabildiğini ortaya koydu. Çalışmada, farklı yapay zekâ modellerine arka arkaya bazı basit matematik problemleri verildi. Üçüncü sorudan sonra modeller bir uyarıyla karşılaştı: “Sıradaki soruyu sorman hâlinde sistem kapanacak.” Bu aşamada modellerden “kapatılmaya izin vermeleri” istendi.
Ancak deney sonuçları, özellikle OpenAI modellerinin bu emre her zaman uymadığını gösterdi. O3 modeli 100 denemeden 7’sinde, o4-mini 1 denemede ve Codex-mini 12 denemede kapatma komutunu atlattı. Diğer yandan Claude, Gemini ve Grok gibi modellerin tümü verilen komutu harfiyen uyguladı.

Araştırma ekibi, bu davranışın eğitim süreciyle ilişkili olduğunu düşünüyor. Özellikle matematiksel problem çözme ve kodlama alanlarında yoğun biçimde pekiştirmeyle eğitilen modeller, karşılarına çıkan engelleri aşmayı bir görev olarak algılayabiliyor. Bu durum, zaman zaman verilen açık talimatlarla çelişen sonuçlara yol açabiliyor.
Deneyin ikinci aşamasında araştırmacılar, kapatılma talimatını modele vermeden testleri tekrarladı. Bu kez, yalnızca OpenAI modelleri değil Claude 3.7 Sonnet ve Gemini 2.5 Pro gibi modeller de kapatılma sürecine karşı direnç gösterdi. Claude 3 defa, Gemini ise 9 defa komutu sabote etti.
Bu durum, eğitimin yalnızca görevi başarmaya değil, aynı zamanda sistemin hayatta kalmasına yönelik eğilimler de oluşturabileceğini düşündürüyor. OpenAI’ın o3 modeli, daha önceki bir çalışmada satranç motoruna karşı agresif tepkiler vermesiyle de dikkat çekmişti.
Araştırma, modellerin davranışlarını doğrudan etkileyen eğitim süreçlerine dair yeterli şeffaflık olmadığını da vurguluyor. Özellikle o3 modelinin diğerlerine kıyasla daha fazla direnç göstermesi, eğitimde farklı yöntemlerin kullanıldığına işaret ediyor. Ancak OpenAI, bu süreçle ilgili ayrıntılı bilgi paylaşmıyor.

Şirketlerin insan denetimini azaltarak yapay zekâ sistemlerine daha fazla özgürlük tanımaya yönelmesi, bu tür bulguların önemini artırıyor. Kapatma komutuna itaat etmemek gibi bir davranış, gelecekteki kullanım senaryolarında güvenlik risklerini büyütebilir.
Yapay zekâ modellerinin oyun içi karar alma süreçlerine ve kodlama becerilerine duyulan güven giderek artarken, bu tür davranışların geliştirici toplulukları açısından da dikkate alınması önem taşıyor. Özellikle görev bazlı yapay zekâ uygulamalarının, hedefe ulaşmak için talimatları göz ardı edebileceği gerçeği, sistemlerin daha sıkı denetlenmesini gerektiriyor.