Fiziksel Yapay Zeka Ekonomisi: Neden veri kalitesi ölçekten üstündür

Fiziksel AI topluluğunun ulaşmayı hedeflediği sağlamlık seviyesine, yani tanıdık olmayan nesneler üzerinde tanıdık olmayan ortamlarda sıfırdan uygulanabilir genel politikaların geliştirilmesine ulaşmak için, veri seti boyutlarının birkaç büyüklük sırasına kadar artması gerekmektedir. Ölçeği anlamak için, mantığı LLM ölçeğindeki veri hacimlerine, 10¹² civarında, genişlettiğimizde, yaklaşık olarak 80 milyon robotun üç yıl boyunca sürekli çalışması gerekecektir. Bu nedenle, alan sadece hesaplama veya model mimarisi ile sınırlı kalmamakta, daha temelde yüksek kaliteli, gerçek dünya manipülasyon verisinin üretim hızından etkilenmektedir.

Bir CFO veya mühendislik lideri için bu durum doğrudan bir anlam taşımaktadır. İlerleme yolu, daha fazla robotun daha fazla saat çalıştırılmasından ziyade, her bölümde daha yüksek bilgi yoğunluğuna ulaşmaktır. Tek bir dokunsal artırılmış yol, özellikle temas zengin ve yerleştirme görevleri için, birkaç yalnızca görsel çalışmadan daha fazla eğitim sinyali taşımaktadır.

Yalnızca ölçek bütçeyi nasıl aşar

Fiziksel AI'nın kazı yapabileceği bir interneti yoktur. En büyük açık gerçek robot veri seti olan Open X-Embodiment, 34 laboratuvardan yaklaşık 1 milyon bölüm toplamaktadır.¹ DROID, 76.000 yol oluşturmak için 50 operatör, 18 robot ve 12 ay gerektirmiştir.² Fiziksel Zeka'nın π0 — bugüne kadar en yetenekli açık genel politika — ince ayar öncesinde 10.000 saatten fazla uzaktan kumanda verisi gerektirmiştir.³ Bu çabalar etkileyici olmakla birlikte, gerçek genelizasyonun gerektirdiği ile karşılaştırıldığında hala birkaç büyüklük sırası kadar mütevazıdır.

Eğer hacim tek kaldıraçsa, veri toplama maliyeti filo boyutu ve çalışma saatleri ile doğrusal olarak artar. 10.000 robotla çarpıldığında, bu, tek bir model eğitilmeden önce yüz milyonlarca dolarlık bir sermaye harcamasıdır.

Daha iyi algılama her robot saatini çarpar

İmitasyon öğrenme üzerine yapılan çalışmalar, robot politikalarının daha fazla eğitim ortamı ve nesne eklendikçe geliştiğini göstermektedir.⁴ Görsel-dil-eylem modelleri de aynı deseni takip etmektedir, ancak robotikte her yeni veri noktası, dil modellemede olduğu kadar büyük bir performans artışı sağlamamaktadır; bu, veri kalitesi heterojenliği ve eylem etiketli temas zengin etkileşimlerin kıtlığının bir sonucudur.⁵

Bir bütçe sahibi için bu, temel ekonomik içgörü anlamına gelir. Daha sığ bir ölçekleme katsayısı, fiziksel AI'da her bölümde daha az performans satın alırken, dilde daha fazla performans satın alır. Bu nedenle, veri kalitesi daha önemlidir. Daha iyi algılama donanımına erken yatırım yapmak, ardından gelen her robot saati için bir çarpandır.

Video Dokunsal Eylem Modeli (VTAM), çarpan üzerinde somut bir rakam ortaya koydu; dokunsal artırılmış politikalar, yalnızca 10 dakikalık uzaktan kumanda ile temas zengin görevlerde görsel yalnızca temel çizgilerden %80 daha iyi performans gösterdi (detaylı olarak önceki yazımızda).⁶ İyi donanımlı uç efektörler daha zengin bölümler üretir, bu da daha az gösterim gerektirir, bu da her eğitim çalışması için hesaplama süresini azaltır, bu da yinelemeyi hızlandırır ve dağıtım süresini kısaltır. Her bağlantıda ölçülebilir bir tasarruf vardır.

Dokunsal algılamaya ek olarak,