Visual Transformer, mantık işleme merkezi olarak ChatGPT'yi kullanır ve aşağıdaki efektleri elde etmek için çeşitli görsel temel modelleri entegre eder:
- Görsel sohbet sistemi Visual ChatGPT metin ve resim alıp gönderebilir
- Karmaşık görsel görevleri çözmek için çok adımlı akıl yürütme yoluyla araçları çağırabilen karmaşık görsel soru yanıtlama veya görsel düzenleme talimatları sağlayın
- Geri bildirim sağlayabilir, cevapları özetleyebilir, proaktif olarak belirsiz talimatlar isteyebilir, vb.
Bu çalışma, görsel görev işlemeyi gerçekleştirmek için bir araç olarak görsel temel modeli kullanmak üzere ChatGPT'nin araştırma yönünü açtı ve ChatGPT'nin görsel görevleri işlemesi için yeni bir kapı açtı.
Link:
https://github.com/microsoft/visual-chatgpt