PhAIL, gerçek donanımda en iyi robotik temel modellerini sıralıyor

Positronic Robotics, dört VLA modelini kutudan kutuya sipariş toplama konusunda değerlendirdi. | Kredi: Positronic Robotics

Geliştiricilerin robotların yapay zeka ile çalışmasına yardımcı olduğunu belirten Positronic Robotics, “Fiziksel AI Lider Tablosu” veya PhAIL’i tanıttı. Bu, ticari görevlerde robotik temel modellerini değerlendiren sürekli bir benchmark’tır.

Eylül 2025'te kurulan Positronic, araştırma temel modelleri ile gerçek dünya robotik üretimi arasında köprü kurarak fiziksel AI'yı standartlaştırmak ve ölçeklendirmek için açık kaynaklı bir altyapı geliştirdiğini söyledi. Springfield, Missouri merkezli şirketin sistemi, tüm robotik yaşam döngüsü ve PhAIL benchmark’ı için birleşik bir Python araç seti kullanıyor.

PhAIL, ticari olarak ilgili operasyonları gerçekleştiren fiziksel robotik kurulumlar üzerinde modelleri değerlendirir. Positronic Robotics, kutudan kutuya sipariş toplama ile başladı — bu, lojistik ve endüstriyel otomasyondaki en yaygın görevlerden biridir. Bu görevde, öğeler bir seferde bir inbound konteynerden outbound konteynerine aktarılır.

Mevcut değerlendirme sistemi, DROID tarzı yapılandırmada bir Franka Research 3 robot kolu ile bir Robotiq 2F-85 kavrayıcısını birleştiriyor; bu, yaygın olarak kullanılan ve yeniden üretilebilir bir araştırma platformudur.

PhAIL, verimlilik ve güvenilirliği ölçer

Fiziksel AI, son yıllarda hızla ilerledi ve temel modeller giderek daha çeşitli manipülasyon görevlerini gerçekleştirebiliyor. Ancak çoğu benchmark hala simülasyon veya kontrollü laboratuvar koşullarına dayanıyor ve birçok kamu değerlendirmesi, sürdürülebilir operasyon yerine düzenlenmiş gösterim videolarına vurgu yapıyor. Endüstriyel dağıtım için iki değişken baskındır: verimlilik ve güvenilirlik.

PhAIL, her ikisini de doğrudan ölçer. Her çalışma gerçek donanımda, simülasyonda değil gerçekleştirilir. Model kontrol noktaları rastgele seçilir ve kör koşullarda değerlendirilir. Her çalışma kaydedilir ve senkronize video, robot telemetresi, istasyon meta verileri ve puanlama belgeleri ile yayımlanır.

Bu çalışmalardan, PhAIL saat başına birim (UPH) ve arızalar veya yardımlar arasındaki ortalama süre (MTBF/A) hesaplar – bu, bir operasyon yöneticisinin bir dağıtımı değerlendirmek için kullanacağı metriklerdir, akademik bir “başarı oranı” değil. Protokol, PhAIL beyaz kağıdında tamamen belgelenmiştir.

Fiziksel AI Lider Tablosu kendisi donanım bağımsızdır. Positronic Robotics, gerçek dünya dağıtımlarının çeşitliliğini yansıtmak için 2026'nın ikinci çeyreğinde robotik bedenler eklemeyi planladığını söyledi. Kutudan kutuya toplama sadece başlangıç noktasıdır, dedi. Benchmark’ın amacı, AI modellerinin gerçek tesislerde günde binlerce kez gerçekleşen tekrarlayan, ekonomik olarak önemli operasyonlarda ne kadar iyi performans gösterdiğini ölçmektir.

“Hepimiz çamaşırlarımızı katlayan bir robot hayal ediyoruz – ama bu günde bir kez gerçekleşen bir görev. Fabrikalarda ve lojistikte, aynı operasyon her vardiyada yüzlerce kez çalışıyor ve bunların çoğu hala çözülmedi,” dedi Positronic Robotics'in kurucusu Sergey Arkhangelskiy. “Fiziksel AI'nın önce orada kendini kanıtlaması gerekiyor ve Ph