Google Gemini Omni: Görüntü, Ses ve Metni Videoya Dönüştürüyor!

Google, üç yıl önce Gemini'yi tanıttığında temel hedefi; metin, görüntü, ses ve videoyu tek bir sinir ağı üzerinden işleyebilen çok modlu (multimodal) bir dev dil modeli oluşturmaktı.
Google, üç yıl önce Gemini'yi tanıttığında temel hedefi; metin, görüntü, ses ve videoyu tek bir sinir ağı üzerinden işleyebilen çok modlu (multimodal) bir dev dil modeli oluşturmaktı. Şirket, düzenlenen Google I/O geliştirici konferansında bu hedefe yönelik dev bir adım atarak "Gemini Omni" model ailesini tanıttı. CEO Sundar Pichai, Omni'nin "herhangi bir girdiden her şeyi yaratabilme" yeteneğine sahip olacağını vurguladı.
İlk aşamada video odaklı olarak karşımıza çıkan Omni; görüntü, ses, video ve metin girdilerini sadece bir araya getirmekle kalmıyor, tüm bu veriler arasında mantıksal çıkarımlar yaparak tutarlı çıktılar üretiyor. Bu sayede ortaya çıkan yüksek kaliteli videolar; fizik, kültür, tarih ve bilim gibi alanlarda derin bir anlayışı yansıtıyor. Ayrıca Omni, karmaşık düzenleme yazılımlarına ihtiyaç duymadan, sadece basit metin komutlarıyla fotoğraflar üzerinde düzenleme yapma imkanı sunuyor.
Google'ın halihazırda metin ve görüntüleri videoya dönüştüren Veo modeli bulunsa da Google DeepMind Ürün Yönetimi Direktörü Nicole Brichtova, Omni'nin basit bir güncellemeden çok daha fazlası olduğunu belirtti. Brichtova, bu gelişmeyi "Gemini'nin zekası ile medya modellerinin render yeteneklerini birleştirme yolundaki bir sonraki adım" olarak tanımladı. DeepMind Baş Teknoloğu Koray Kavukcuoğlu tarafından verilen bir örnekte; modele "protein katlanmasının kil animasyonuyla anlatımı" şeklinde basit bir komut verildiğinde, sistemin hızla seslendirmeli ve bilimsel olarak doğru bir stop-motion video oluşturduğu görüldü.
Omni'nin uzun vadeli vizyonu, sesten görüntü veya videodan ses üretmek gibi çok daha geniş kapsamlı yetenekleri kapsıyor. Sundar Pichai, yapay zekanın artık sadece metin tahmin etme aşamasından çıkıp gerçekliği simüle etme aşamasına geçtiğini belirterek, Gemini Omni'nin bu yöndeki en kritik adım olduğunu ifade etti.
Yeniliğin bir parçası olarak kullanıcılar, kendi dijital avatarlarıyla videolar oluşturabilecekler. Ancak Google, deepfake risklerini önlemek amacıyla bu özellik için sıkı doğrulama süreçleri uygulayacak.
Yorumlar (0)
Yorum yapmak için giriş yapın.