OpenAI, Yapay Zekâ Temelli Araştırma Yetkinliklerini Ölçen BrowseComp Benchmark’ını Yayınladı
OpenAI, yapay zekâ ajanlarının karmaşık bilgileri web üzerinde bulma becerilerini test etmek için tasarlanan yeni bir benchmark olan BrowseComp’ı duyurdu. Bu test, yapay zekâ sistemlerinin kalıcı bir şekilde birçok siteyi gezerek zor erişilen bilgilere ulaşma yeteneklerini değerlendiriyor.
BrowseComp Nedir?
BrowseComp, 1.266 zorlu bilgi arama sorusundan oluşan bir kıyaslama sistemi olarak tanımlanıyor. Sistem tarafından oluşturulan bu sorular yapay zekâ ajanlarının yalnızca temel bilgiye değil, birbirine dolanmış ve dağınık verilere ulaşma becerisini ölçüyor. Bu özelliği sayesinde BrowseComp, GPT-4o gibi hızlı tarama özelliklerine sahip modellerin bile zorlandığı bir benchmark olma özelliği taşıyor.
OpenAI, BrowseComp’ı faydalı bir ölçüm aracı olarak konumlandırıyor. Bu kıyaslama programı, gerçek kullanıcı ihtiyaçlarının tamamını kapsamasa da araştırma yetenekleri için gerekli olan ısrarcı arama ve yaratıcı bilgi bulma kabiliyetini ölçmeyi hedefliyor.
Benchmark Nasıl Hazırlandı?
BrowseComp tamamen insan eğitmenler tarafından hazırlandı. Eğitmenler, değişmeyecek türde kesin, kısa cevaplı bilgilerden yola çıkarak sorular oluşturdu. Sorular, GPT-4o (tarama özelliğiyle birlikte ve ayrı ayrı), OpenAI o1 ve şirketin yeni araştırma odaklı yapay zekâ modeli tarafından çözülemediği teyit edilerek benchmark’a dahil edildi.
Ayrıca soruların cevapları, beş farklı Google aramasının ilk sayfasında bulunamayacak şekilde tasarlandı. Amaç, çoğu insanın çözmesi için 10 dakikadan fazla zaman harcayacağı zorlukta sorular üretmekti. Bu nedenle “ters soru” tekniği kullanıldı: Önce bilgi bulundu, sonra bu bilgiye ulaşmayı zorlaştıracak ama doğrulamayı kolaylaştıracak sorular yazıldı. OpenAI, BrowseComp benchmark’ını farklı modeller üzerinde test etti:
- GPT-4o
- GPT-4.5
- OpenAI o1
- Deep Research modeli
Bu testlerde Deep Research modeli açık ara en yüksek başarıyı gösterdi. Soruların yaklaşık yarısını çözmeyi başardı. Bu modelin, web üzerinde bağımsız arama yapma, bilgileri sentezleme ve arama stratejisini dinamik olarak değiştirme becerilerine sahip olduğu belirtildi.
BrowseComp’ın duyurusu, web arama ve yapay zeka destekli araştırmanın geleceği hakkında tartışmaları alevlendirdi. Knowatoa’nın kurucusu Michael Buckbee bu gelişmeler hakkında hem iyimserliğini hem de endişelerini dile getirdi. AI danışmanı Nishant Sinha ise BrowseComp’ın zorluk seviyesinin önemine dikkat çekti.
BrowseComp benchmark’ı ve örnek senaryoları GitHub üzerinden erişime açıldı. Detaylı metodoloji ve sonuçlar için OpenAI’nin araştırma makalesi incelenebilir.