Secondo i ricercatori del MIT, l’addestramento in un ambiente completamente diverso produce un agente di intelligenza artificiale più performante.
Il MIT ha sviluppato un approccio che può migliorare il comportamento degli agenti di intelligenza artificiale, addestandola in un ambiente diverso rispetto a quello in cui verrà impiegata.
Finora gli ingegneri hanno cercato di adattare il più possibile l’ambiente di addestramento simulato al mondo reale in cui verrà impiegato l’agente. Ma i ricercatori del MIT e di altri istituti hanno ora scoperto che, nonostante questa saggezza convenzionale, a volte l’addestramento in un ambiente completamente diverso produce un agente di intelligenza artificiale più performante.
I loro risultati indicano che, in alcune situazioni, addestrare un agente di intelligenza artificiale simulato in un mondo con meno incertezza, o “rumore”, gli ha consentito di comportarsi meglio di un agente di intelligenza artificiale concorrente addestrato nello stesso mondo rumoroso che hanno utilizzato per testare entrambi gli agenti. I ricercatori chiamano questo fenomeno inaspettato effetto di addestramento indoor: “Se impariamo a giocare a tennis in un ambiente interno dove non c’è rumore, potremmo essere in grado di padroneggiare più facilmente diversi colpi. Quindi, se ci spostiamo in un ambiente più rumoroso, come un campo da tennis ventoso, potremmo avere una maggiore probabilità di giocare bene a tennis rispetto a se iniziassimo a imparare in un ambiente ventoso”, spiega Serena Bono, assistente di ricerca presso il MIT Media Lab e autrice principale di un articolo sull’effetto dell’allenamento indoor.
Studiare con i videogioghi
I ricercatori hanno studiato questo fenomeno addestrando agenti AI a giocare ai giochi Atari, che hanno modificato aggiungendo un po’ di imprevedibilità. Sono rimasti sorpresi nello scoprire che l’effetto dell’allenamento indoor si è verificato in modo coerente nei giochi Atari e nelle varianti di gioco e sperano che questi risultati alimentino ulteriori ricerche per sviluppare metodi di allenamento migliori per gli agenti AI. “Questo è un asse completamente nuovo su cui riflettere. Invece di cercare di abbinare gli ambienti di formazione e test, potremmo essere in grado di costruire ambienti simulati in cui un agente di intelligenza artificiale impara ancora meglio” aggiunge il coautore Spandan Madan, uno studente laureato presso l’Università di Harvard.
L’apprendimento per rinforzo è un metodo di tentativi ed errori in cui l’agente esplora uno spazio di formazione e impara a intraprendere azioni che massimizzano la sua ricompensa.
Il team ha sviluppato una tecnica per aggiungere esplicitamente una certa quantità di rumore a un elemento del problema di apprendimento per rinforzo chiamato funzione di transizione. La funzione di transizione definisce la probabilità che un agente passi da uno stato all’altro, in base all’azione che sceglie.
La ricerca della spiegazione
Quando i ricercatori del Massachusetts Institute of Technology hanno scavato più a fondo alla ricerca di una spiegazione, hanno visto alcune correlazioni nel modo in cui gli agenti AI esplorano lo spazio di addestramento. Quando entrambi gli agenti AI esplorano principalmente le stesse aree, l’agente addestrato nell’ambiente non rumoroso ha prestazioni migliori, forse perché è più facile per l’agente apprendere le regole del gioco senza l’interferenza del rumore. Se i loro modelli di esplorazione sono diversi, l’agente addestrato nell’ambiente rumoroso tende ad avere prestazioni migliori. Ciò potrebbe verificarsi perché l’agente ha bisogno di comprendere modelli che non può apprendere nell’ambiente privo di rumore. “Se imparo a giocare a tennis solo con il dritto nell’ambiente non rumoroso, ma poi in quello rumoroso devo giocare anche con il rovescio, non giocherò altrettanto bene nell’ambiente non rumoroso” spiega Bono.
In futuro, i ricercatori sperano di esplorare come l’effetto dell’allenamento indoor potrebbe verificarsi in ambienti di apprendimento rinforzato più complessi, o con altre tecniche come la visione artificiale e l’elaborazione del linguaggio naturale. Vogliono anche creare ambienti di allenamento progettati per sfruttare l’effetto dell’allenamento indoor, che potrebbe aiutare gli agenti AI a comportarsi meglio in ambienti incerti.
Foto Jose-Luis Olivares, MIT