Belirli bir problemdeki doğruluk performansı yüzde 97,6'dan yüzde 2,4'e indi
ABD'nin saygın kurumlarından Stanford ve Berkeley Üniversitesi araştırmacıları, yapay zeka sohbet botu ChatGPT'nin giderek "aptallaştığını" ileri sürdü.
Henüz hakem onayına sunulmayan araştırma makalesinde birkaç aylık süre içinde hem GPT-3,5 hem de GPT-4'ün "davranışlarını" önemli ölçüde değiştirdiği ifade edildi.
Buna göre sohbet botunun yanıtlarının doğruluğu azalıyor.
Makalede GPT-4'ün Mart 2023'te asal sayıları belirlemede çok iyi olduğu, bu sayıları yüzde 97,6 doğruluk payıyla belirleyebildiği aktarılıyor. Haziran sonuna ise aynı sorulara sadece yüzde 2,4 oranında doğru cevap verebildiği belirtiliyor.
Araştırmacılar ayrıca, ikisi sürümün de kod yazımında kötüye gittiğini ifade ediyor. Buna göre sohbet botunun haziranda yazdığı kodlarda marta kıyasla daha fazla biçimlendirme hatası mevcut.
Araştırmacılar birçok kullanıcının da bu durumdan şikayetçi olduğunu söylüyor. Hatta bazı kullanıcılar sohbet botunun kasten değiştirildiği düşüncesinde.
Sohbet botunu geliştiren yapay zeka firması OpenAI ise bu söylentileri yalanlıyor.
Şirketin ürün başkan yardımcısı Peter Welinder, "Hayır, GPT-4'ü daha aptal yapmadık" diye konuştu:
"Tam tersi: her yeni sürümü bir öncekinden daha akıllı hale getiriyoruz."
Kullanıcı deneyimindeki değişimlerin sürekli kullanımdan kaynaklanabileceğini savunan Welinder, sözlerini şöyle sürdürdü:
ChatGPT'yi daha yoğun kullandığınızda daha önce görmediğiniz sorunları fark etmeye başlıyor olabilirsiniz.
Araştırmacıların makalesinde ChatGPT'nin performansındaki gerilemenin nedenlerine değinilmiyor. Ancak performans düşüklüğünün kanıtlanabilir olduğu dile getiriliyor.
Makalede, "GPT-3,5 ve GPT-4'ün performansının bu iki sürüm arasında önemli ölçüde değiştiğini ve iki sürümün de bazı görevlerdeki performanslarının zaman içinde önemli ölçüde kötüleştiğini bulduk" ifadelerine yer veriliyor:
Modelleri güncellerken bazı yönlerini iyileştirmeyi amaçlarsınız. Ancak modelin diğer kabiliyetlerine zarar verip vermediğinizi bilmek önemlidir.
Independent Türkçe