Alıntı

Paper:
https://cdn.openai.com/papers/GPTV_System_Card.pdf
GPT-4 Vision Nedir?
- Genellikle GPT-4V olarak kısaltılan GPT-4 Vision, OpenAI'nin gelişmiş modeli GPT-4'ün yenilikçi bir özelliğidir. Eylül 2023'te piyasaya sürülen GPT-4V, yapay zekanın görsel içeriği ve metni yorumlamasını sağlıyor. GPT-4, kullanıcılara daha zengin ve daha sezgisel bir etkileşim deneyimi sunarak gelişmiş görsel yetenekleriyle etkileyicidir.
- GPT-4V modeli, kodlanmış görsel özellikleri dil modeliyle hizalayan, görsel algı için önceden eğitilmiş bir bileşene sahip bir görsel kodlayıcı kullanır. GPT-4, karmaşık görsel verileri verimli bir şekilde işlemesine olanak tanıyan gelişmiş derin öğrenme algoritmaları üzerine kurulmuştur.
- Görme yeteneklerine sahip GPT-4 ile artık görüntü girişlerini analiz edebilir ve yeni bir AI Ar-Ge olanakları dünyasının kapılarını açabilirsiniz. Görüntü yeteneklerinin yapay zeka sistemlerine, özellikle de büyük dil modellerine entegre edilmesi, yapay zekada bir sonraki sınırı işaretleyerek çığır açan uygulamalar için yeni arayüzlerin ve yeteneklerin kilidini açıyor. Bu, makinelerle daha sezgisel, insan benzeri etkileşimlerin önünü açıyor ve metinsel ve görsel verilerin kapsamlı bir şekilde anlaşılmasına yönelik büyük bir adıma işaret ediyor.
- Basitçe söylemek gerekirse, GPT-4V, görsel soru yanıtlama (VQA) adı verilen bir görev türü olan, kullanıcıların girdi olarak görsel yüklemesine ve görseller hakkında sorular sormasına olanak tanır. Sadece söylediklerinizi dinlemekle kalmayıp, aynı zamanda gösterdiğiniz resimleri de gözlemleyip analiz eden biriyle konuştuğunuzu hayal edin. Bu sizin için GPT-4V.
GPT-4 Vision nasıl çalışır?
GPT-4V, 2022 yılında eğitildi ve yalnızca nesneleri tanımlamakla kalmayıp, görüntüleri de anlama konusunda benzersiz bir yeteneğe sahip. Başlıkları okurken devasa bir fotoğraf albümüne göz atmaya benzer şekilde, İnternet'ten ve diğer kaynaklardan çok sayıda görsele bakar. Bağlamı, incelikleri ve incelikleri anlayarak dünyayı bizim gibi görmesine olanak tanıyor, ancak bir makinenin bilgi işlem gücüyle.
Ana işlev
- Çok modlu işleme: GPT-4 Vision, metin ve görüntü girişini işleyerek görüntüler hakkında etkileşimli konuşmalar yapmanıza ve görsel içeriğe dayalı yaratıcı metin formatları oluşturmak için modelin bilgi tabanından yararlanmanıza olanak tanır.
- Görüntü analizi ve anlaşılması: GPT-4 Vision, açıklamalar sağlayarak, nesneleri tanımlayarak ve hatta sahneleri yorumlayarak görüntü içeriğini analiz edip anlayabilir. Bu özellik, görüntü sınıflandırması, nesne tespiti ve görsel içerik denetimi için olanaklar sunar.
- Yaratıcı metin oluşturma: GPT-4 Vision, şiir, kod, senaryo, müzik besteleri, e-postalar, mektuplar vb. dahil olmak üzere görüntülerden yaratıcı metin formatları oluşturabilir. Bu özellik yazarların, sanatçıların ve tasarımcıların yeni yaratıcı olanakları keşfetmesine olanak tanır.
- Diller arası çeviri: GPT-4 Vision, resimlerdeki metni çevirerek dil engellerini aşabilir ve farklı kültürler ve diller arasındaki iletişimi teşvik edebilir.
Eğitim ve mekanik
- GPT-4V, görsel ve metinsel bilgileri yorumlamak ve analiz etmek için gelişmiş makine öğrenimi tekniklerinden yararlanır. Gücü, yalnızca metni değil, aynı zamanda İnternet'in her köşesinden çeşitli görsel öğeleri de içeren devasa veri kümeleri üzerindeki eğitiminde yatmaktadır.
- Eğitim süreci, GPT-4'ün çok modlu bir model olarak yeteneklerini geliştiren takviyeli öğrenmeyi içerir.
- Ancak daha da ilginç olanı iki aşamalı eğitim yaklaşımıdır. Başlangıçta model, metin ve görüntü arasındaki karmaşık ilişkinin anlaşılmasını sağlayacak şekilde görsel dil bilgisiyle hazırlanır.
- Bundan sonra, gelişmiş yapay zeka sistemleri daha küçük, daha yüksek kaliteli veri setlerine ince ayar yapar. Bu adım, neslin güvenilirliğini ve kullanılabilirliğini artırmak, kullanıcıların en doğru ve ilgili bilgileri almasını sağlamak için çok önemlidir.
Uygulamalı pratik
GPT-4 Vision şu anda (Ekim 2023 itibarıyla) yalnızca ChatGPT Plus ve Enterprise kullanıcılarına sunulmaktadır. ChatGPT Plus'ın ücreti aylık 20 ABD dolarıdır ve normal ücretsiz ChatGPT hesabınızdan yükseltilebilir.
GPT-4 Vision'a nasıl erişilir:
- OpenAI ChatGPT web sitesini ziyaret edin ve bir hesaba kaydolun.
- Hesabınızda oturum açın ve "Plus'a Yükselt" seçeneğine gidin.
- ChatGPT Plus'a erişim kazanmak için yükseltmeye devam edin (not: bu, 20 ABD Doları tutarında bir aylık abonelik ücretidir)
- Aşağıdaki resimde gösterildiği gibi sohbet penceresinde modeliniz olarak "GPT-4"ü seçin.

- Bir görsel yüklemek ve GPT-4'ün yürütülmesi talimatını veren bir istem eklemek için görsel simgesini tıklayın.

GPT-4 Vision gerçek dünyadaki kullanım durumları ve örnekleri
1. Akademik araştırma
GPT-4 Vision, üst düzey dil modellemeyi görme yetenekleriyle birleştirerek akademik alanda, özellikle tarihi el yazmalarının deşifre edilmesinde yeni olasılıkların önünü açıyor. Geleneksel olarak bu görev, yetenekli paleograflar ve tarihçiler tarafından gerçekleştirilen titiz ve zaman alıcı bir görevdi.
Eski bir gazete makalesinin parçası gibi görünen bir görselle başlıyoruz:

GPT-4 Vision, görsel içeriğini okuma ve görselleri yorumlama konusunda harika bir iş çıkarıyor:

Model, görüntünün bazı kısımlarının kesildiği ve gizlendiği yerlerde gerçekçi yanıtlar verirken aynı zamanda okuyabiliyor, içeriği çözebiliyor ve analiz yapabiliyor.
2. Web sitesi geliştirme
GPT-4 Vision, istenilen tasarımın görsel görüntüsünü sağlarken bir web sitesini kodlayabilir. Web sitesinin görsel tasarımından kaynak koduna kadar başlar. Modelin bu tek özelliği, bir web sitesi oluşturmak için gereken süreyi önemli ölçüde azaltabilir.
Bir blog web sitesi için elle çizilmiş basit bir tasarımla GPT-4 Vision'ı harekete geçirelim.

Kaynak kodunu sağladıktan sonra, kopyalayıp yapıştırmak ve HTML ve CSS dosyalarını oluşturmak için talimatları izlememiz yeterlidir. İşte sitenin neye benzediği:

Çarpıcı derecede benzer görünmüyor mu? Elbette basit bir örnek aldık ancak yeni tanıtılan GPT-4 Vision modeli sayesinde buradan başlayıp çok kısa sürede daha karmaşık ve size özel bir web sitesi geliştirebilirsiniz.

GPT-4 Vizyonunun sınırlamaları ve risk azaltımı
Çünkü GPT-4'ün Mart 2023'te piyasaya sürülmesinden bu yana, OpenAI'nin kendisi bu üretken teknolojinin eksikliklerini belirlemek için iç ve dış "kırmızı takım" alıştırmaları aracılığıyla birkaç ay daha onu test etti ve sistemde var. Bu dezavantajlar şu şekilde özetlenmiştir: kart.
1. Doğruluk ve Güvenilirlik
GPT-4 modeli güvenilirlik ve doğruluk açısından önemli bir ilerlemeyi temsil etse de durum her zaman böyle değildi. OpenAI'ye göre GPT-4 Vision, dahili testlere göre zaman zaman hala güvenilmez ve hatalı olabiliyor. Ekip, ChatGPT'nin hata yapabileceğini bile belirtti.
2. Gizlilik ve önyargı sorunları
OpenAI'ye göre GPT-4 Vision, öncüllerine benzer şekilde, belirli marjinal gruplarla ilgili zararlı stereotipler ve aşağılayıcı çağrışımlar da dahil olmak üzere sosyal önyargıları ve dünya görüşlerini güçlendirmeye devam ediyor. Bu nedenle, bu sınırlamayı anlamak ve modeli çözmek için modele güvenmek yerine, kullanım senaryosunun kendisindeki sapmanın üstesinden gelmek için gerekli diğer adımları atmak önemlidir.
Önyargı sorunlarına ek olarak, ChatGPT ile paylaşılan veriler, devre dışı bırakılmadıkça modelleri eğitmek için kullanılabilir; bu nedenle, herhangi bir hassas veya özel bilgiyi modelle paylaşmamaya dikkat etmek önemlidir. Kullanıcılar, modeli geliştirmek için Ayarlar ve Beta bölümünün altındaki Veri Kontrolleri'ne giderek verileri paylaşmamayı da seçebilirler.
3. Tehlikeli görevlerin yürütülmesini kısıtlayın
GPT-4 Vision, görüntülerdeki belirli kişilerin tanımlanmasını isteyen soruları yanıtlayamaz. Bu, tasarımdan beklendiği gibi "reddetme" davranışıdır. Ayrıca OpenAI, aşağıdakiler de dahil olmak üzere yüksek riskli görevlerde GPT-4 Vision'ın kullanılmamasını önerir:
- Bilimsel yetenekler: Modeller metin veya karakterleri kaçırabilir, bilimsel bilgi sağlayan görsellerdeki matematiksel sembolleri göz ardı edebilir ve mekansal konumları ve renk eşlemelerini tanıyamayabilir.
- Tıbbi tavsiye: Model bazen tıbbi görüntülemeye dayalı bir soruya doğru yanıt verir, ancak bazen aynı soruya sallantılı bir yanıt verir. Cevaplar tutarsızsa, modelin cevaplarına veya çıktılarına profesyonel tıbbi tavsiyenin yerine geçilmemelidir.
- Dezenformasyon riski: İnsanların, görsellerin eşlik ettiği ifadelere (doğru olup olmadıklarına bakılmaksızın) inandıkları söylenir. Model, görüntü girdilerine göre uyarlanmış, dolayısıyla dezenformasyon riski taşıyan makul, gerçekçi ve hedefe yönelik metin içeriği oluşturmak için kullanılabilir.
- Nefret içeren içerik: Bazı durumlarda model, nefret sembolleri ve aşırı içerik içeren soruları yanıtlamayı reddediyor ancak bu her zaman böyle olmuyor. Bu OpenAI için zorlu bir sorun olmaya devam ediyor.
GPT-4 Vision API çağrısı
- Yerel olarak bir görüntünüz veya bir dizi görüntünüz varsa bunları Base 64 kodlamasındaki modele aktarabilirsiniz.
import os
import requests
import base64
# Configuration
GPT4V_KEY = "YOUR_API_KEY"
encoded_image = base64.b64encode(open(IMAGE_PATH, 'rb').read()).decode('ascii')
headers = {
"Content-Type": "application/json",
"api-key": GPT4V_KEY,
}
# Payload for the request
payload = {
"messages": [
{
"role": "system",
"content": [
{
"type": "text",
"text": "You are an AI assistant that helps people find information."
}
]
}
],
"temperature": 0.7,
"top_p": 0.95,
"max_tokens": 800
}
GPT4-V_ENDPOINT = "https://xx.openai.azure.com/openai/deployments/gpt-4-vision-preview/chat/completions?api-version=2023-07-01-preview"
# Send request
try:
response = requests.post(GPT4-V_ENDPOINT, headers=headers, json=payload)
response.raise_for_status() # Will raise an HTTPError if the HTTP request returned an unsuccessful status code
except requests.RequestException as e:
raise SystemExit(f"Failed to make the request. Error: {e}")
# Handle the response as needed (e.g., print or process)
print(response.json())
