OpenAI’ın yeni AI modelleri eskilerinden daha fazla hayal görüyor

OpenAI’ın yeni AI modelleri eskilerinden daha fazla hayal görüyor
Yapay zeka araştırmalarında son devrin beğenilen başlığı olan “akıl yürütme yetenekleri”, beklenmedik bir yan tesirle gündemde: artan halüsinasyon oranları. OpenAI’ın yakın vakitte tanıttığı o3 ve o4-mini isimli yeni “reasoning” yani akıl yürütme odaklı modelleri, performans açısından birçok alanda öne çıkarken, doğruluk konusunda tasa yaratıyor. Yapılan testler, bu modellerin daha evvelki sürümlerden çok daha fazla halüsinasyon ürettiğini gösteriyor. Üstelik bunun nedeni de tam olarak bilinmiyor.

Yeni modelleri daha fazla hayal görüyor

Halüsinasyon, yapay zeka modellerinin gerçek olmayan bilgiler üretmesi manasına geliyor. Bu sorun, bilhassa bilgiye dayalı uygulamalarda önemli riskler barındırıyor. OpenAI’ın teknik raporuna nazaran, o3 modeli, şirketin insanlara dair bilgi doğruluğunu ölçmek için kullandığı PersonQA testinde yüzde 33 oranında halüsinasyon üretti. Bu oran, evvelki modeller o1 (%16) ve o3-mini (%14,8) ile karşılaştırıldığında neredeyse iki kat fazla. Dahası, o4-mini bu alanda daha da makûs bir tablo çizerek yüzde 48 halüsinasyon oranına ulaştı.

OpenAI, bu beklenmedik artışın nedenini şimdi netleştirebilmiş değil. Şirketin açıklamasına nazaran, daha fazla araştırmaya gereksinim var. Yeni modeller kimi misyonlarda, bilhassa matematik ve yazılım üretimi üzere alanlarda daha yüksek doğruluk sergilese de, daha fazla sav üretmeleri nedeniyle hem gerçek hem de yanlış bilgi sayısı artıyor.

Bu durumun kaynağına dair farklı görüşler de var. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin kimi karşılıklar verirken, gerçekte yapamayacağı adımları gerçekleştirmiş üzere gösterdiğini belirtiyor. Örneğin, modelin bir yanıtta, ChatGPT dışında bir MacBook Pro’da kod çalıştırdığını ve çıkan sonuçları karşılığına eklediğini sav ettiği kaydedildi. Elbette bu, teknik olarak mümkün değil. Kimilerine nazaran ise halüsinasyon eğilimleri modelin eğitiminde kullanılan pekiştirmeli öğrenme sürecinden kaynaklanıyor olabilir.
administrator

Related Articles

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir