elektronikci
FD Üye

Yapay zeka araştırmalarıyla bilinen OpenAI, metin açıklamalarından çarpıcı manzaralar üretebilen yapay zeka DALL-E 2 ile yeni bir muvaffakiyete imza attı. Geçen yılın başında çıkan birinci sürümünün üzerine geliştirilen DALL-E 2, gelişmiş derin öğrenme teknikleri ve yapay hudut ağları sayesinde insan hayalini yorumlama yeteneğiyle ilgilerin odağı haline gelmiş durumda. Dilerseniz sunduğu yenilikler ve öne çıkan yanlarıyla DALL-E 2’ye daha yakından bakalım.
San Francisco’daki OpenAI laboratuvarında doğan DALL-E 2’nin en büyük niteliği Generative Adversarial Network (GAN) olarak bilinen makine tahsili modelini kullanmasında gizli. Çalışma formu bakımından Türkçeye Çekişmeli Üretici Ağ olarak çevrilen bu model, son yıllarda muazzam gelişmelere sahne oldu. Bu gelişmelere herkesin bildiği Deepfake’i örnek gösterebiliriz. GAN, artık ise DALL-E 2’ye güç vererek bir metin açıklamasıyla uyuşan harikulâde görseller oluşturmanın önünü açıyor. Pekala Çekişmeli Üretici Ağlar nedir ve nasıl çalışıyor buna kısa bir bakış atalım.
Günümüzde Apple’ın özel projeler kümesinde makine tahsili yöneticisi olarak çalışan Ian Goodfellow’un 2014 yılında tasarladığı GAN, temel olarak üretici ve ayırt edici olarak isimlendirilen iki yapay hudut ağının birbiriyle yarışı aslına dayanıyor. Bu sistemi bir örnek üzerinden ele alarak GAN’a köpek görselleri ürettirmek istediğimizi varsayalım. Birinci başta yapay zekaya köpeklerin ne olduğunu öğretmemiz gerektiğinden kendisine çok sayıda gerçek köpek görseli sunmamız gerekiyor. Akabinde GAN’ın bünyesindeki üretici ağ, köpeklerin fizikî yapısını öğrendiği için görsel üretimine başlayabilir. Üretilen her görsel daha sonraki süreçte ayırt edici ağa aktarılır ve burada gerçek ve yapay hudut ağının ürettiği düzmece görseller karşılaştırılarak ayırt edilir. Çok kısa vakit içerisinde gerçekleşen bu süreçler devam ettikçe üretici ve ayırt edici ağ ortasındaki rekabet kızışır, bu iki yapay hudut ağı da yetenek açısından gelişmeye başlar. Yani, ayırt edici ağ gitgide uydurma görselleri daha hakikat belirlerken, üretici ağ ise buna karşılık çok daha gerçekçi geçersiz görseller üretir.
DALL-E 2'nin Oluşturduğu Görseller
1 - 6






DALL-E’ye dönecek olursak, bu projede yalnızca GAN teknolojisinin kullanılmadığını belirtmekte yarar var. DALL-E 2’nin gerisindeki asıl bilim, son birkaç yılda isminden çokça bahsedilen iki gelişmiş derin öğrenme tekniği, CLIP ve Difüzyon modelleri olarak ön plana çıkıyor. Bu iki derin öğrenme tekniğinin dayanağıyla DALL-E 2, oluşturduğu manzaralardaki anlamsal tutarlılığı muhafazası sayesinde rakiplerinden epeyce ileride. Örneğin, “Ata binen bir astronot” açıklamasıyla DALL-E 2 tarafından üstteki görsellerin oluşturulması, yapay zekanın lisana hakimiyetini gözler önüne seriyor. Ayrıyeten, açıklamaların sonunda yer alan “karakalem” ve “fotogerçekçi” üzere görsellerin şeklini belirten kavramların dahi dikkate alınması ilgi cazibeli. OpenAI’nin kendi gerçekleştirdiği testlerle oluşturulan öteki görselleri buradaki interaktif içerikten inceleyebilirsiniz.
İlk versiyonuna kıyasla değişik bir hale bürünen DALL-E 2, şimdilik herkese açık değil lakin OpenAI birinci kullanım talihine erişmek isteyenler için müracaatları açtı. İlerleyen günlerde bekleme listesine kaydını yaptıranlar bu yapay zekayı deneme hakkına sahip olabilecekler. Niyetlerinizi yorumlarda bizlerle paylaşmayı unutmayın.