Python bilginiz varsa PyTorch veya TensorFlow öğrenerek başlamanız iyi olur. tavsiyem pytorch olacaktır.
Lokalde deneyecekseniz (bunu çok tavsiye etmiyorum) Google Colab ya da AWS üzerinde GPU sunucuları öneririm.
Ayrıca sıfırdan bir model geliştirmek, dataset vb. derken inanılmaz zahmetli bir süreç; fakat fine-tuning yapabilirsiniz. Şu an Gemma gibi modellerle bunu yapmanız mümkün.
Ben RTX 4090 ile StyleGAN kullanarak hazırladığım datasetlerde bulunan resimlere benzer görseller ürettim; ama açıkçası uğraştığıma değmedi.
Profesyonel düzeyde yapmayı düşünüyorsanız güzel bir süreci var.
Huggingface ile başlayabilrisiniz bir çok kaynak mevcut.
Live Translate uygulması yayınladım steam'de bu süreçte realtime TTS model ihtiyaçlarım ile başlamıştım araştırmaya hepsi ayrı birer dünya.
Son olarak facefusion 3 modellerini comfyui entegre ettim bu süreçte yine çok çaba sarf ettim fakat büyük bir hedefiniz ve yatırım gücünüz veya yatırımcınız yoksa zahmete girmeyin derim.
Arkadaşınız finetuning yapmış olabilir bu localde yapılabilen bir şey zaten;
kendi deneyimlerimi yazdım hatalarım olabilir arkadaşlar.

Edit : Storyllm.com'da kendi eğittiğim modellerde mevcut proje içerisinde.