Geçtiğimiz birkaç ay içinde, bazı kişiler GPT-4 ile ilgili kendi deneyimlerine dayanarak, bu cihazın performansında bir düşüş yaşandığı yönünde spekülasyonlarda bulundu.
GPT-4'ün mimarisi (iddiaya göre) sızdırıldığında, OpenAI'nin hesaplama süresi ve maliyetlerinden tasarruf etmek için performansı düşürdüğüne dair yaygın bir iddia vardı.
OpenAI ise bunu inkar etti, ancak kullanıcılar buna inanmıyor.
Dolayısıyla bu makale ortaya çıktığında, uzun süredir devam eden spekülasyonları doğruluyor gibi görünüyordu.
Princeton araştırmacıları, söylentilerin doğru olup olmadığına karar vermenin imkansız olduğunu, ancak makalenin buna dair bir kanıt sunmadığını söylemenin güvenli olduğunu belirtiyor.
Performans düşüşü konusunda şüpheci olanlar arasında en popüler hipotez, insanlar ChatGPT'yi daha fazla kullandıkça, sınırlamalarını fark etmenin daha kolay hale geldiğidir.
Kısaca özet olarak
- Stanford ve UC Berkeley tarafından yapılan araştırmaya göre, GPT-4'ün performansı Mart ayına kıyasla Haziran ayında düştü.
- GPT-4, kod oluşturma ve soru yanıtlama görevlerinde eskisi kadar başarılı değil.
- Örneğin, "Bu sayı asal bir sayı mı?" gibi bir soruyla GPT-4'ün başarı oranı %97,6'dan %2,4'e düştü.
- GPT-4 performansındaki düşüş uzun zamandır görülüyor ve bazı kullanıcılar bu düşüşü deneyimlemişler.
- Stanford araştırması, GPT-4'ün matematik problemlerini çözme, hassas soruları yanıtlama, kod üretimi ve görsel muhakeme gibi dört görevde düşük performans gösterdiğini gösterdi. - -GPT-4'ün kod üretimi yeteneği daha da düştü, özellikle Haziran sürümünde %10 başarı oranına düştü.
- Hassas soruları yanıtlarken GPT-4 daha temkinli hale geldi ve cevapları daha önceki versiyonuna kıyasla daha kısa ve daha az ayrıntılı hale geldi.
- Araştırmacılar, GPT-4'ün davranış değişikliklerini değerlendirdi ve modelin davranışında farklılıkların olduğunu buldular.
- Ancak, bu değişikliklerin modelin yeteneklerindeki gerçek bir düşüşü yansıtmadığına dikkat çektiler. Davranış değişikliklerinin modelin ince ayarından kaynaklandığı düşünülüyor.
Kaynak:
https://www.aisnakeoil.com/p/is-gpt-...orse-over-time