Ricercatori di Massachusetts Institute of Technology Il Watson AI Laboratory del MIT-IBM ha sviluppato un nuovo metodo per la navigazione AI che trasforma i dati visivi in descrizioni linguistiche per aiutare i robot a svolgere compiti complessi.
Questo approccio utilizza un modello linguistico di grandi dimensioni per generare dati di addestramento sintetici e prendere decisioni di navigazione basate sull'input linguistico. Sebbene non sia superiore ai modelli basati su immagini, offre il vantaggio di richiedere meno risorse e di adattarsi più facilmente a compiti e ambienti diversi.
Un giorno, potresti volere che il tuo robot domestico porti un carico di vestiti sporchi al piano di sotto e li metta nella lavatrice situata nell'angolo più a sinistra del seminterrato. Il robot dovrà combinare le tue istruzioni con il suo feedback visivo per determinare quali passaggi dovrebbe eseguire per completare questa attività.
Per un agente AI, questo è più facile a dirsi che a farsi. Gli approcci esistenti spesso utilizzano più modelli di machine learning realizzati manualmente per gestire diverse parti dell’attività, la cui realizzazione richiede una grande quantità di impegno umano e competenze. Questi approcci, che utilizzano rappresentazioni visive per prendere direttamente decisioni di navigazione, richiedono enormi quantità di dati visivi per la formazione, che spesso sono difficili da ottenere.
Integrazione di modelli linguistici per migliorare la navigazione
Per superare queste sfide, i ricercatori del MIT e del MIT-IBM Watson Artificial Intelligence Laboratory hanno ideato un metodo di navigazione che converte le rappresentazioni visive in porzioni di linguaggio, che vengono poi inserite in un ampio modello linguistico che soddisfa tutte le parti di un compito di navigazione in più fasi. .
Invece di codificare le caratteristiche visive delle immagini dell'ambiente circostante il robot come rappresentazioni visive, cosa che richiede molte operazioni computazionali, il loro metodo crea didascalie di testo che descrivono il punto di vista del robot. Un ampio modello linguistico utilizza il feedback per prevedere le azioni che il robot dovrebbe intraprendere per soddisfare le istruzioni basate sulla lingua dell'utente.
Poiché il loro metodo utilizza solo rappresentazioni basate sul linguaggio, possono utilizzare un modello linguistico di grandi dimensioni per generare in modo efficiente un’enorme quantità di dati di addestramento sintetici.
Sebbene questo approccio non sia superiore alle tecniche che utilizzano funzionalità visive, funziona bene in situazioni in cui mancano dati visivi sufficienti per l'addestramento. I ricercatori hanno scoperto che la combinazione di input basati sulla lingua con segnali visivi ha portato a migliori prestazioni di navigazione.
“Utilizzando solo il linguaggio come rappresentazione cognitiva, il nostro approccio è molto più diretto”, afferma Bowen Pan, uno studente laureato in ingegneria elettrica e informatica e autore principale di un articolo sull’approccio. “Poiché tutti gli input possono essere codificati come linguaggio, possiamo creare un percorso che possa “permettere all'uomo di comprendere”.
I coautori di Ban includono il suo consulente Aud Oliva, direttore dell'impegno strategico del settore presso la Schwarzman School of Computing del MIT, direttore del MIT-IBM Watson Artificial Intelligence Laboratory e uno scienziato ricercatore senior presso il Computer Science and Artificial Intelligence Laboratory (CSIL); Philippe Isola, professore associato all'EECS e membro del CSAIL; L'autore principale Yoon Kim, professore assistente presso EECS e membro di CSAIL; e altri presso il MIT-IBM Watson AI Lab e il Dartmouth College. La ricerca sarà presentata alla conferenza del capitolo nordamericano dell'Association for Computational Linguistics.
Risolvere il problema della visione con il linguaggio
Poiché i modelli linguistici di grandi dimensioni sono i modelli di apprendimento automatico più potenti disponibili, i ricercatori hanno cercato di incorporarli nel complesso compito noto come navigazione visiva e linguistica, afferma Pan.
Tuttavia, tali modelli accettano input testuali e non possono elaborare i dati visivi dalla fotocamera del robot. Quindi, il team ha dovuto trovare un modo per utilizzare il linguaggio.
La loro tecnologia si basa su un semplice modello di traduzione per ottenere descrizioni testuali del feedback visivo del robot. Queste didascalie sono combinate con istruzioni basate sulla lingua e inserite in un ampio modello linguistico, che decide quale passaggio di navigazione successivo il robot dovrà intraprendere.
Il modello linguistico di grandi dimensioni genera un'annotazione della scena che il robot dovrebbe vedere dopo aver completato questo passaggio. Viene utilizzato per aggiornare il track record in modo che il robot possa tracciare dove è stato.
Progettazione di un sistema di navigazione intelligente e facile da usare
Il modello ripete questi processi per creare un percorso che guida il robot verso il suo obiettivo, passo dopo passo.
Per semplificare il processo, i ricercatori hanno progettato modelli in modo che le informazioni di monitoraggio siano presentate al modello in una forma standard, come una serie di scelte che il robot può fare in base all’ambiente circostante.
Ad esempio, un titolo potrebbe dire “Alla tua sinistra con un angolo di 30 gradi c'è una porta con una pianta in vaso accanto, e alla tua schiena c'è una piccola scrivania con una scrivania e un computer” e così via. Il modello sceglie se il robot deve muoversi verso la porta o verso la scrivania.
“Una delle sfide più grandi è stata capire come codificare questo tipo di informazioni nel linguaggio in modo appropriato per far capire all'agente quale fosse il compito e come avrebbe dovuto rispondere”, afferma Pan.
Vantaggi della lingua
Quando hanno testato questo approccio, sebbene non potesse superare le prestazioni delle tecniche di visione, hanno scoperto che offriva numerosi vantaggi.
Innanzitutto, poiché il testo richiede meno risorse computazionali per essere sintetizzato rispetto ai dati di immagini complesse, il loro metodo può essere utilizzato per generare rapidamente dati di addestramento sintetici. In un test hanno creato 10.000 percorsi sintetici basati su 10 percorsi visivi reali.
Questa tecnologia può anche colmare il divario che potrebbe impedire a un agente addestrato in un ambiente simulato di ottenere buone prestazioni nel mondo reale. Questo divario si verifica spesso perché le immagini generate dal computer possono apparire molto diverse dalle scene del mondo reale a causa di elementi come l'illuminazione o il colore. Ma Pan dice che sarebbe molto difficile distinguere tra loro nel linguaggio che descrive un’immagine falsa rispetto a una reale.
Inoltre, le rappresentazioni utilizzate dal loro modello sono più facili da comprendere per gli esseri umani perché sono scritte in linguaggio naturale.
“Se un cliente non riesce a raggiungere il suo obiettivo, possiamo determinare più facilmente dove ha fallito e perché. Forse le informazioni sulla cronologia non sono abbastanza chiare o la nota tralascia alcuni dettagli importanti”, afferma Pan.
Inoltre, il loro metodo può essere applicato più facilmente a compiti e ambienti diversi perché utilizza un solo tipo di input. Finché i dati possono essere codificati come una lingua, possono utilizzare la stessa forma senza apportare alcuna modifica.
Ma uno svantaggio è che il loro metodo naturalmente perde alcune informazioni che possono essere catturate da modelli basati sulla visione, come le informazioni di profondità.
Tuttavia, i ricercatori sono rimasti sorpresi nel vedere che la combinazione di rappresentazioni basate sul linguaggio con metodi basati sulla visione ha migliorato la capacità di navigazione dell'agente.
“Ciò potrebbe significare che il linguaggio è in grado di catturare alcune informazioni di livello superiore che non possono essere catturate utilizzando puramente funzionalità visive”, afferma.
Questa è un’area che i ricercatori vorrebbero esplorare ulteriormente. Vogliono anche sviluppare un software di traduzione orientato alla navigazione che migliorerebbe le prestazioni di questo metodo. Inoltre, vorrebbero esplorare la capacità dei modelli linguistici su larga scala di dimostrare la consapevolezza spaziale e vedere come ciò potrebbe aiutare la navigazione basata sulla lingua.
Riferimento: “LangNav: Language as a Perceptual Representation for Navigation” di Bowen Pan, Rameswar Panda, So Young Jin, Rogerio Ferris, Odd Oliva, Felipe Isola e Yun Kim, 30 marzo 2024. Informatica > Visione artificiale e riconoscimento di modelli.
arXiv:2310.07889
Questa ricerca è stata finanziata, in parte, dal Laboratorio AI Watson del MIT-IBM.