Le recenti scoperte tecnologiche hanno notevolmente migliorato le prestazioni di agenti e modelli di intelligenza artificiale. Uno di questi approcci alla creazione di modelli di intelligenza artificiale in grado di risolvere diversi problemi è l’apprendimento per rinforzo (RL). L’apprendimento per rinforzo è un’area dell’apprendimento automatico in cui gli agenti mirano a intraprendere azioni in modo da massimizzare la ricompensa cumulativa. In altre parole, RL opera sulla base della funzione di ricompensa ed è responsabile di importanti risultati nell’IA del gioco, come l’impareggiabile gioco AI Go-play di DeepMind, AlphaGo. Nonostante le prestazioni impressionanti degli agenti di intelligenza artificiale che utilizzano RL, si affidano a tentativi ed errori per trovare una strategia efficace. Ciò indica che l’algoritmo può trascorrere diversi anni armeggiando nello spazio di ricerca finché non arriva a una formula vincente. Tali scenari limitano l’applicazione dell’apprendimento per rinforzo alle situazioni del mondo reale. Inoltre, i miglioramenti delle prestazioni osservati negli agenti di intelligenza artificiale spesso vanno a scapito del tempo, delle risorse computazionali e delle grandi quantità di dati necessari per addestrare questi modelli.
Gli attuali modelli di intelligenza artificiale sono completamente inefficaci rispetto agli esseri umani, che possono apprendere le cose all’istante interagendo, spiegando e leggendo documenti di testo come manuali di istruzioni. Questa osservazione ha scatenato un’idea tra un team di ricercatori della Carnegie Mellon University (CMU) per migliorare notevolmente la velocità degli agenti di intelligenza artificiale facendogli leggere i manuali di istruzioni prima di tentare una sfida. Il loro approccio consiste in un framework di lettura e ricompensa utilizzato per addestrare un agente di intelligenza artificiale a eseguire il videogioco Atari. L’agente AI viene addestrato circa 6.000 volte più velocemente di un recente modello di punta sviluppato da DeepMind leggendo le istruzioni.
I manuali di istruzioni possono essere molto utili per comprendere funzionalità e politiche preziose in un ambiente specifico per attività e informare l’utente di eventuali sistemi di ricompensa. Ciò è servito da incentivo per i ricercatori della CMU a concentrarsi sull’insegnamento agli agenti di intelligenza artificiale come apprendere le politiche per attività specifiche utilizzando prove scritte dall’uomo al fine di migliorare le loro prestazioni e aumentare la loro efficienza. Inoltre, a causa del loro ambiente controllato e del fatto che dispongono di un sistema di punteggio che può essere utilizzato come sistema di ricompensa negli algoritmi di apprendimento per rinforzo, i videogiochi Atari sono stati a lungo uno standard amato per la ricerca sull’apprendimento per rinforzo. Combinando queste osservazioni, i ricercatori della CMU hanno introdotto un framework di lettura e ricompensa che velocizza gli algoritmi RL nei giochi Atari leggendo i manuali pubblicati dagli sviluppatori di giochi Atari.
Il framework consiste principalmente di due moduli, il primo dei quali è un modulo di estrazione della garanzia di qualità che viene utilizzato per estrarre e riassumere informazioni importanti dal manuale di istruzioni ufficiale del gioco. La seconda unità, l’unità pensante, riceve i dati dopo che sono stati estratti con successo dalla prima unità. Questo modulo è un modello linguistico preaddestrato con capacità e dimensioni paragonabili a GPT-3 che valuta le interazioni oggetto-agente in base a query effettuate con dati manuali. Un algoritmo di rinforzo utilizza quindi queste risposte per offrire ricompense che vanno oltre la struttura di punteggio intrinseca del gioco. Questi bonus aggiuntivi migliorano le capacità dell’algoritmo di apprendimento per rinforzo aiutandolo ad apprendere il gioco più velocemente.
I ricercatori hanno utilizzato Skiing 6000, uno dei giochi di intelligenza artificiale più difficili da padroneggiare di Atari, per valutare la loro strategia. A differenza del precedente Agente 57 in evoluzione, che necessitava di 80 miliardi di frame per funzionare meglio di un essere umano, questo nuovo metodo necessitava solo di 13 milioni di frame per far funzionare il gioco. Tuttavia, sono riuscito solo circa la metà e nel modo migliore. Tuttavia, anche se il nuovo approccio non è all’altezza delle prestazioni della persona media, è ancora di gran lunga superiore a una serie di altri approcci di apprendimento per rinforzo che non erano pienamente in grado di comprendere i concetti di gioco.
I ricercatori della Carnegie Mellon University affermano che il loro studio è il primo del suo genere a dimostrare che un framework di apprendimento per rinforzo completamente automatizzato può sfruttare i manuali di istruzioni di un gioco ben noto. Il team ha già iniziato a sperimentare con altri giochi 3D come Minecraft, dove ha visto alcuni risultati incoraggianti. Sperano che il loro approccio possa essere esteso a situazioni lavorative più complesse in futuro. Il team di ricerca spera vivamente che la comunità dell’IA consideri il proprio lavoro come un importante passo avanti per migliorare l’efficacia degli agenti di intelligenza artificiale basati sull’apprendimento aumentativo.
scansiona il carta E Articolo di riferimento. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti Sottotitoli 15k+ML RedditE canale discordiaE Notiziario via e-maildove condividiamo le ultime notizie sulla ricerca sull’IA, fantastici progetti di intelligenza artificiale e altro ancora.
Khushboo Gupta è un consulente in formazione presso MarktechPost. Attualmente sta conseguendo la laurea in tecnologia presso l’Indian Institute of Technology (IIT), Goa. È appassionata delle aree dell’apprendimento automatico, dell’elaborazione del linguaggio naturale e dello sviluppo web. Ti piace imparare di più sul campo tecnico partecipando a varie sfide.