12448
Proč humanoidní roboti stále bojují s malými věcmi John Pavlus
[ Ezoterika ] 2026-03-20
Poslední desetiletí přineslo obrovské zlepšení humanoidních robotů, ale k rozšíření by možná bylo potřeba vrátit se k základům...
Když jsem naposledy pokrýval vědu humanoidních robotů, stav techniky vypadal přímo orwellovsky - tím myslím: "čtyři nohy dobré, dvě nohy špatné." Byl rok 2015... První čtyřnožec Boston Dynamics "Spot" ovládl YouTube, sebevědomě klusal po schodech a zotavoval se z tvrdých kopů. Také populární v té době: humanoidi padající dolů... neustále... Bylo mi těch kolísavých kovových humrů líto víc než Spotovi. Dvounohý pohyb je těžký...
Přeskočme do současnosti. Humanoidi jsou zřejmě natolik vyspělí, že Tesla některé modely elektrických aut odkládá do trezoru, aby uvolnily místo humanoidnímu robotovi Optimus, a start-upu předprodávajícímu androidí komorníky s vážnou tváří. Kromě humbuku jsem byl opravdu zvědavý: Došlo v oboru k nějaké změně paradigmatu, když jsem se nedíval? Jistě, "AI" se stala (tedy v tom smyslu po ChatGPT). To jsem rozhodně nepřehlédl. Ale vůbec jsem netušil, co to asi mělo společného s tím, že roboti už nepadají.
Ve filozofii "qualia" označuje subjektivní vlastnosti naší zkušenosti: jaké to je pro Alenku vidět modrou nebo pro Boba cítit radost. Qualia jsou "způsoby, jakými se nám věci zdají připadat," jak to řekl zesnulý filozof Daniel Dennett. V těchto esejích naši sloupkaři následují svou zvědavost a zkoumají důležité, ale ne nutně zodpovězitelné vědecké otázky.
Pro zkontrolování reality jsem zavolal Scottu Kuindersmu, který nedávno po mnoha letech opustil Boston Dynamics, a Jonathanovi Hurstovi z Agility Robotics. Oba vědci byli přítomni a zapojeni během dnů robotů s obličejem. Jistě dnešní robotičtí bipední zázraky dokážou vystoupat pár schodů a otevřít dveře, aniž by se zapotili, což jim před deseti lety vadilo. Ptal jsem se každého výzkumníka: Dokáže váš vlajkový robot - Atlas od Boston Dynamics nebo Digit od Agility, dva z nejdůvěryhodnějších a nejuznávanějších humanoidů na Zemi - zvládnout jakékoli schodiště nebo dveře? "Ne spolehlivě," řekl Hurst. "Nemyslím si, že je to úplně vyřešené," řekl Kuindersma. Nechápejte mě špatně: nevěřím, že nějaký robotický zombie s ponožkovou tváří je blízko tomu, aby převzal mé domácí práce. Ale schody a dveře? Je rok 2026. Proč jsou humanoidi pořád takhle... těžké?
Rychlé, levné a většinou pod kontrolou
Abych byl spravedlivý, došlo k zásadní změně. Vlastně tři... Za prvé, hluboké učení - neuronové sítě běžící na rychlých GPU čipech - naturbovalo počítačové vidění a posilované učení, což radikálně zlepšilo rychlost a sofistikovanost, s jakou roboti vnímají a interagují se svým prostředím. Pak v roce 2016 začala revoluce v pohonu (robotický výraz pro "pohyb dílů") - těžké hydraulické mechanismy byly nahrazeny menšími, "proprioceptivními" elektromotory, které dodávaly robotům s nohama zvířecí obratnost. Nejnověji přišly velké jazykové modely. Adaptace chatbotové technologie pro roboty jim umožňuje autonomně plánovat a provádět vícekrokové úkoly, jako je oddělování jablka nebo vyprázdnění myčky (alespoň v demu). Tyto pokroky vytvořily obrovský rozdíl mezi "Running Manem", mohutnou, trhavou verzí Atlase, která získala druhé místo v DARPA Robotics Challenge v roce 2015 , a štíhlým, hladkým Atlasem, který byl nedávno ukázán, jak breakdance a autonomně přesouvá nepravidelné předměty z jednoho kontejneru do druhého (přičemž čelí zásahům člověka s hokejkou).
Ta plynulá chůze například vychází z hlubokého posilovaného učení.
Robotici kdysi koordinovali každý pohyb pomocí různých ručně navržených algoritmů, přičemž k modelování (zjednodušené) fyziky robota používali rovnice. Nyní trénují neuronové sítě, aby fungovaly jako "ovladače celého těla" tím, že spouštějí nespočet digitálních simulací humanoidů. Tento proces naučí síť "politiku", jak převést zpětnou vazbu z prostředí do činů. "Používáme posilované učení k vytvoření politiky, která se zabývá koordinací těla, vyhýbáním se kolizím, rovnováhou a vším těmto věcmi," řekl Kuindersma. Už není třeba modelovat robotickou nohu jako lineární obrácené kyvadlo, například. "To už je prostě pryč," řekl. Tuto strategii podpořily proprioceptivní aktuátory, které v sériirobotů Cheetah zavedlSangbae Kim z Massachusetts Institute of Technology. "Posilované učení existuje už dlouho, víš. Lidé to už zkoušeli," řekl Kim. "Ale pokud použijete běžné [motory], robot se prostě rozbije,"
... Pokaždé, když se mu nepodaří dokonale provést politiku v reálném světě - nebo narazí na překážku či narušení.
Mít roboty, kteří fungují jako lidé,
Myslím, že musíme zvládnout fyziku.
Pulkit Agrawal
Kimovy pohony řešily problém s ovladatelnou "pružností", tedy pružností. Za poslední desetiletí se staly levnějšími a dostupnějšími. "Posilované učení vyřešilo mnoho problémů [dvounohého] pohybu, ale hardware byl tím, kdo to umožňoval," řekl Kim. Pokud byly posilované učení a podřízená aktuace darem humanoidní robotiky, multimodální AI to uzavřela. V roce 2023 představil Google DeepMind modely "vision-language-action" (VLA), které dokážou přijímat video a přirozený jazyk a vytvářet pohybové příkazy jako výstupy. "Když řeknete ´mám žízeň´, ví, že pravděpodobně chcete pít, a může [vygenerovat] kroky, které [robot] musí podniknout: Najděte něco a pak to takto zvedněte," řekla Carolina Parada, vedoucí robotiky ve společnosti Google DeepMind. "Tohle je něco, co bys před třemi lety musel přejít na hard-code." Jedním tahem VLA spojily dříve odlišné přístupy k robotickému vnímání, plánování a řízení do jednoho univerzálního potrubí. Robustní ztělesnění, splněno. Generalizovatelné informace, splněno. (Aspoň začátek.) Tak proč to neznamená, že humanoidi jsou vědecky "vyřešeni" - alespoň v zásadě?
Ať je Síla s tebou
Pulkit Agrawal, který studuje učení robotů v příhodně pojmenované laboratoři Improbable AI na MIT, měl odpověď, když jsem ho tam minulý měsíc kontaktoval. "Aby roboti fungovali jako lidé," řekl, "myslím, že musíme ovládnout fyziku." Nemluvil o kosmických záležitostech jako obecná relativita nebo kvantová gravitace, ani o virtuálních "světových modelech", které v současnosti nadchnou přední výzkumníky AI, jako je Yann LeCun. Místo toho mluví Agrawal. Zvládnout něco, co by měl znát středoškolský student přírodních věd: síla a setrvačnost... Celý smysl humanoidního formátu je totiž poskytovat to, co Kim nazývá "multifunkční mobilní manipulací", tedy schopnost pohybovat se téměř kamkoli (včetně schodů a dveří) a manipulovat téměř s čímkoli (od vykládání palet po šroubování žárovek), aniž by se při tom někomu ublížilo. Stručně řečeno, co děláme každý den. "Tyto věci jsou o [ovládání] sil, pokud je chcete dělat rychlostí člověka," řekl Agrawal. "Ovládání Síly je součástí klasické [robotiky]. Ale v moderní oblasti strojového učení to není tak rozšířené." Ovládání sil je v zásadě jednoduché. Představte si robotickou ruku, která kreslí na tabuli - aniž by rozbila špičku fixu...
Robotici vědí, jak to udělat už více než 40 let: naprogramují rameno tak, aby se chovalo, jako by mělo na sobě imaginární pružinu a tlumič. "Pružinu lze udělat opravdu měkkou ve směru směřujícím do tabule a tuhší podél povrchu tabule," řekl Kuindersma. "Tímto způsobem robot udržuje správný tlak fixem a zároveň přesně píše čáry a křivky písmen." Tuto zpětnou vazbu lze řídit silovými senzory zabudovanými v kloubech robota, ale háček je v tom, že klasické přístupy vyžadují velké znalosti o robotovi, prostředí a úkolu, aby fungovaly, dále vysvětlil. Tento přístup k ovládání síly funguje skvěle pro průmyslové roboty s konkrétními úkoly a dokonce pomohl i s humanoidní pohybem.
Ale bylo nemožné to zobecňovat. Kimovy proprioceptivní elektrické pohony, také nazývané kvazi-přímé pohonné aktuátory, věci zjednodušily. Nejenže byly navrženy tak, aby absorbovaly neočekávané nárazy bez poškození, ale byly také velmi "průhledné", což znamenalo, že motor přeměňoval elektrický proud na úměrnou sílu (a naopak) s relativně malými chybami. V podstatě se motor sám stal senzorem síly, což znamenalo, že "můžete odstranit náklady a složitost ze svého robota odstraněním specializovaných senzorů síly," řekl Kuindersma. Jak posilované učení zastínilo manuální programování jako způsob řízení humanoidního pohybu, "klasické" ovládání síly nebylo zapomenuto. Prostě to bylo zabstrahováno a do jisté míry delegováno jak na hardware, tak na AI.
"Z pohledu AI to není tak, že bys musela myslet na ovládání Síly," řekla Hurstová. "Je to spíš tak, že víte, že potřebujete kvazi-přímý pohon, abyste se přiblížili [potřebné regulaci síly], pak dáte [neuronovou síť] do simulace a iterujte milionkrát - a pak ji můžete dát na robota a získat zajímavé chování." Tyto neuronové sítě se učí obecné politiky, které řídí polohy částí těla robota. Regulace síly často probíhá pouze nepřímo při simulačním tréninku, nebo někdy jako vedlejší efekt, když se učí z videa nebo lidského vstupu. Ale tyto metody explicitně neučí fyziku síly - alespoň zatím ne. "Mnoho signálů potřebných pro inteligentní řízení sil není přítomno v [video a demonstračních] datech," řekl Kuindersma.
Parada z DeepMind přiznala, že modely VLA se v podstatě jen učí přecházet mezi přesně definovanými pózami - a tento přístup má velký význam. "Sami jsme byli překvapeni, jak daleko to dokážeš zatlačit, aniž bys to měl jiný pocit," řekla. Ale zatím jen do určité míry. Pokud zůstanou robotická těla relativně tuhá a těžká ve srovnání s našími, "mají vysokou setrvačnost a nejsou tak poslušná," řekl Agrawal, což znamená, že bez kontroly síly budou mít potíže s přesnými úkoly v komplikovaném prostředí. "Pokud se dotýkáš jemných předmětů a máš malé chyby, stane se něco špatného." Představte si obyčejné vejce a druhé z pevné oceli: Jedno z nich je potřeba zvednout mnohem opatrněji. Jedním ze způsobů, jak tento problém obejít, který používají mnohé působivé systémy spolu s přesností pozicování, je prostě jít pomalu. Představte si, že se snažíte pohnout židlí autem, řekl Agrawal: "Když pojedu pomalu,
Mohu být přesný, jak pohybuji [svou polohou], a pak mohu ovládat, kam židle půjde, takže problém se [silou] zmizí." To je částečně důvod, proč se Atlas pohybuje jako melasa, když drží autodíly, ale klouže jako gymnastka, když se dotýká jen podlahy. "Bylo by přehnané říct, že kontrola síly je naprosto nutná u každého užitečného manipulačního úkolu - to prostě není pravda," řekl Kuindersma. Ale on, Hurst a Parada ochotně přiznávají, že chytré způsoby obcházení síly nezajistí univerzální mobilní obratnost, kterou naši robotičtí komorníci potřebují. I kdyby dnešní boti s mozkem VLA, vylepšení posilovaným učením, měli "internetově velké" množství pozičních dat k trénování, "je velmi pravděpodobné, že byste museli udělat nějakou další práci," řekl Parada. "Lidé cítí síly, které proti vám pracují, když se snažíte otevřít láhev." Humanoidi to většinou stále nedělají, což znamená, že fyziku nezvládli - alespoň ne tak, jako my, po celý život interakce s naším prostředím přes mimořádně složitý pohybový a nervový systém, který nám evoluce darovala. To je velký důvod, proč ani dveře a schodiště nejsou pro současné humanoidy plně "vyřešené". Ty schody, ty dveře? Pravděpodobně. Ale všechny schody a dveře, plus všechno ostatní? "Neexistuje žádný svět, kde by skutečně existovali užiteční, autonomní [humanoidní] roboti, kteří by ovládali pouze podle pozice," řekl Kuindersma. "Síla jako občan první třídy je naprosto nutná."
Buďte chytří (nebo začněte znovu)?
Jak tedy vědecky vzato překonat tu zeď? Většina odborníků, kterých jsem se ptala, tuší, že to bude vyžadovat novou kombinaci hardwarových a softwarových pokroků. Hmatové senzory pro lepší sběr dat a robotické ruce, které kombinují vysoký výkon, pružnost a transparentnost s nízkou setrvačností, by toho hodně dosáhly, a nikdo nevěří, že budou nutné skutečné materiálové průlomy (jako je nahrazení motorů umělými svaly). "Hardware je výjimečný, a pokud ho obviňujete, vymýšlíte si výmluvy," řekl Russ Tedrake, další dlouholetý robotik z MIT, se kterým jsem mluvil. "Pokud lidský mozek protáhnete hardwarem, který máme dnes - například teleoperací - je neuvěřitelně schopný." Klíčové je najít chytřejší způsoby, jak ji ovládat. Když se mě zeptali, jak toho dosáhnout, každý měl jinou odpověď. Agrawal studuje, jak kombinovat ovládání síly s posilovaným učením tím, že humanoidi se učí poslušné chování v simulaci, místo aby se přesouvali mezi striktně definovanými pozicemi.
Tedrake, jehož práce na "velkých behaviorálních modelech" (příbuzný VLA) vytvořila demo robota s odlupováním jablek, nedávno v časopise Science Robotics prosazoval režim ve stylu ChatGPT, "velkoplošný sběr dat a velké předtrénované modely." Frank Park, který napsal knihu o moderní robotice - doslova učebnici s názvem Moderní robotika - věří, že současné přístupy k AI by měly být rozebrány na základy a nahrazeny takými, které učiní fyzikální základy (jako síla a zrychlení) naučenými na základní úrovni. "Architektura VLA je prostě úplně špatně," řekl mi. "Myslím, že tento přístup je odsouzen k neúspěchu." Ve všech těchto rozhovorech mě nejvíc nezaujaly debaty o tom, jaké typy senzorů, dat nebo AI architektury by mohly "vyřešit" humanoidní robotiku. Spíše to byl pocit, že vědecký étos oboru se změnil. Hurst, který právě při našem rozhovoru vyvíjel Agility Robotics ve své laboratoři na Oregon State University, to zdůraznil velmi dobře. "Pamatuji si, že Gill Pratt, který byl ředitelem MIT Leg Lab a později programovým manažerem DARPA Robotics Challenge, říkal, že jeho největší obava byla, že nakonec použijeme posilované učení a umělou inteligenci k tomu, abychom roboty přiměli chodit a běhat, než vůbec pochopíme, jak to funguje," řekl.
"A v mnoha ohledech to tak nějak děláme."
(Poznámka redakce: Gill Pratt si tento rozhovor vzpomínala jinak. Uznal, že strojové učení může umožnit výkon přesahující naše formální chápání, ale ne že by to bylo důvodem k obavám.) Tedrake souhlasil, ale řekl, že to není poprvé, co jsme udělali vědecké a inženýrské skoky bez pevného zvládnutí základů. "Když se podíváte na elektřinu a magnetismus, byla tam fáze Volty, kdy jste do žab zasunuli elektrody," řekl. "A pak jsme měli Faradaye, který dělal přesně ty správné experimenty, a nakonec nám Maxwell vysvětlil řídící rovnice. Myslím, že jsme ve fázi Volty." Kdy tedy budou humanoidi vyřešeni? "Roboti jsou pořád špatní a bude to chtít čas. Ale kosti jsou dobré. Obojí je pravda," řekl Tedrake. "A pořád je to těžké."
Zdroj:
https://www.bibliotecapleyades.net/ciencia4/artificialhumans190.htm
Zpět