
Açık kaynak modellerin lokalde çok yavaş token ürettiği için önerilmiyordu.
Artık kendi bilgisayarımızda gerçekten hızlı kod yazabileceğiz gibi
Apple anlamadığım bir şekilde yapay zeka için açık kaynak olarak geliştirdiği MLX framework'ünü yeterince parlatmıyor.
MLX, Apple'ın M çipleri için özel olarak optimize edilmiş bir kütüphane. Özetle yapay zeka uygulamaları çok daha verimli ve hızlı çalışıyor.
Qwen Coder'ın 30b parametreli, 8bitlik versiyonu: M4 Max laptop'ta saniyede 79 token üretiyor
Aynı model Nvidia RTX 5090 ekran kartı ile saniyede 48 token üretiyor
Bende M3 16 GB laptop var, LM Studio'da Qwen Coder 30B MLX'i (32GB) yükledim saniyede 44 token aldım.
Claude Opus 4 saniyede 46 token üretiyor.
Deepseek R1 sitesi üzerinde 29 token üretiyor.
M4 Max makinesi ve RTX5090 kartı olanlar deneme yapıp paylaşabilirse harika bir veri olur bizim için.