Benchmark farming diye bir kavram var. Yeni bir model piyasaya sürüleceği zaman testlere özel ince ayar yapılıyor, bu sayede en kötü yapay zeka bile diğer modellere kafa tutuyor gibi gözüküyor. Bunu hemen hemen tüm llm geliştiren firmalar yapıyor. Bu sebeple benchmark testlerinde şunu sollamış bunu yapmış gibi şeylerin şahsen hiçbir anlamı yok. Her zaman son kullanıcının kullanımı sırasındaki performans önemlidir. Bence çok da bir farkı yok kimi k2 modelinden. gemini 2.5 seviyesini ancak yakalamışlar gibi diyebilrim.