Robotikte "Llama Anı" Beklemeyin: Devrim Daha Yavaş Gelecek

Geçtiğimiz günlerde bir bankın üzerinde küçük, dört bacaklı bir robotun hareketlerini izledim.
Geçtiğimiz günlerde bir bankın üzerinde küçük, dört bacaklı bir robotun hareketlerini izledim. Robot sağa dönerken her şey pürüzsüzdü; ancak aynı komutla sola dönmeye çalıştığında bacakları yere süründü, temas koptu ve hareket aksadı. Yazılımda her şey simetrikti, kod kusursuzdu. Fakat gerçek dünya öyle değildi. Bacakların yere basış açısındaki milimetrik farklar, gövdeye binen yükü değiştirdi ve aynı dijital emir, fiziksel dünyada iki farklı sonuca yol açtı.
Yapay zeka dünyasında "Llama anı" dediğimiz o kırılma noktasını hepimiz biliyoruz. Bir model yayınlanıyor, herkes onu indiriyor, kendi ihtiyacına göre eğitiyor ve çalıştırıyor. Yazılım dünyasında bu süreç oldukça lineer ilerliyor çünkü çıktı her zaman bir ekran veya bir metin dosyası. Ancak işin içine donanım, yani robotik girdiğinde hikaye tamamen değişiyor. Bir robot politikası (policy) tek başına hiçbir yere gidemez. O dijital zekanın, robotun eklemlerindeki servolara, güvenlik sınırlarına ve fiziksel gerçekliğe tercüme edilmesi gerekir.
Şu an sektörde devasa bir hareketlilik var. Google DeepMind'ın Open X-Embodiment projesi, farklı robot gövdelerinden gelen verileri tek bir havuzda toplayarak "genel bir robot zekası" yaratmaya çalışıyor. NVIDIA ise GR00T ve Isaac modelleriyle bu zekayı geliştiricilerin erişebileceği kanallara taşıyor. Hatta yatırım rakamları dudak uçuklatıcı; Skild AI, Physical Intelligence gibi girişimler milyarlarca dolarlık yatırımlar alıyor. Herkes, robot zekasının da Llama gibi "indirilebilir ve yeniden kullanılabilir" olacağına inanıyor.
Ancak sahaya indiğinizde, yani o robot bir fabrikada veya bir müşterinin tesisinde çalışmaya başladığında, "transfer" dediğimiz süreç genellikle çöker. Simülasyonda mükemmel çalışan robot, gerçek dünyadaki küçük değişimlerle savaşmaya başlar. Bir kameranın açısı hafifçe kayar, bir tutucu aparat zamanla aşınır veya ortamdaki toz birikintisi sensörleri yanıltır. Buna "saha kayması" (site drift) diyoruz. Yazılım güncel olsa bile, donanım yaşlanır ve değişir. Kodun simetrisi, fiziksel dünyanın düzensizliği karşısında yenik düşer.
Asıl sorun ise veri kıtlığı. Dil modelleri internetteki trilyonlarca kelimeyle beslendi. Oysa robotik manipülasyon verisi, internet videolarının yanında bir damla bile değil. NVIDIA, bu açığı kapatmak için robot videoları yerine insanların birinci şahıs bakış açısıyla çektiği videoları (egocentric video) kullanmaya başladı. İnsanların bir nesneyi nasıl tuttuğunu izleyerek robota "ön bilgi" vermeye çalışıyorlar. Ama gerçek altın değerindeki veri, başarı videoları değil, hata kayıtlarıdır. Robotun neden parçayı düşürdüğünü, güvenlik stopunun neden devreye girdiğini anlatan o "başarısızlık anları", sistemi geliştiren tek gerçek kaynaktır.
Dünya modelleri (World Models) ise bize bir nevi "robot rüyaları" gördürüyor. Wayve veya World Labs gibi şirketler, robotun fiziksel dünyaya dokunmadan önce kararlarını test edebileceği dijital evrenler kuruyor. Ancak simülasyon ne kadar gelişmiş olursa olsun, sürtünme, ağırlık merkezi ve aktüatör tepkileri gibi değişkenler her zaman bir pay bırakır. Simülatör, donanımın gerçekteki aşınmasını takip edemediği an, dijital dünya ile fiziksel dünya arasındaki bağ kopar.
Sonuçta her şey o "kontrolcüye" (controller) çıkıyor. Model ne kadar zeki olursa olsun, komutun saniyede bin kez (1 kHz) güncellenen bir servo döngüsüne girmesi gerekir. Eğer kontrolcü, modelden gelen emri fiziksel sınırlara takıldığı için reddederse veya zamanlamayı milisaniyelerle kaçırırsa, robot yine o bank üzerindeki dört bacaklı dostumuz gibi yere sürünür. Filtreleme yapmak komutu daha "temiz" gösterebilir ama gerçek dünyada bu, aracın veya kolun hedefe geç varması demektir. Ve endüstride "geç kalmak", hata yapmaktır.
Robotikte gerçek bir "Llama anı" yaşayacağımız gün, sadece gelişmiş bir modelin internete yüklendiği gün olmayacak. O gün; herhangi bir ekibin, o modeli indirip kendi robotuna entegre ettiği, müşterisinin tesisine kurduğu ve haftalar sonra sistem durduğunda, neden durduğunu dijital kayıtlar üzerinden şak diye çözebildiği gün olacak. Yani mesele sadece zekayı indirmek değil, o zekanın fiziksel dünyadaki izlerini sürebilmek.
Yorumlar (0)
Yorum yapmak için giriş yapın.
İlgili Haberler
Kuantum Dedektörden Devrim: Terahertz Hassasiyeti 20 Kat Arttı
58 minutes ago
SpaceX'in Dev Halka Arzını Tetikleyen 3 Radikal Teknoloji
1 hour ago
The Download: "Steroid Olimpiyatları" ve Daha Güvenli Bir Mythos
1 hour ago