Migliorare l’accuratezza dei  modelli di intelligenza artificiale

Condividi

Una nuova tecnica, sviluppata dal Massachusetts Institute of Technology, identifica e rimuove gli esempi di addestramento che contribuiscono maggiormente ai fallimenti di un modello di apprendimento automatico.

I modelli di apprendimento automatico possono fallire quando cercano di fare previsioni per individui sottorappresentati nei set di dati su cui sono stati addestrati. I ricercatori del MIT hanno sviluppato una nuova tecnica che identifica e rimuove punti specifici in un set di dati di addestramento che contribuiscono maggiormente ai fallimenti di un modello sui sottogruppi di minoranza. Rimuovendo molti meno punti dati rispetto ad altri approcci, questa tecnica mantiene l’accuratezza complessiva del modello migliorandone al contempo le prestazioni per quanto riguarda i gruppi sottorappresentati. Inoltre, la tecnica può identificare fonti nascoste di distorsione in un set di dati di addestramento privo di etichette. I dati non etichettati sono molto più diffusi dei dati etichettati per molte applicazioni.

Questo metodo potrebbe anche essere combinato con altri approcci per migliorare l’equità dei modelli di machine learning implementati in situazioni ad alto rischio. 

Rimozione di esempi errati

Spesso, i modelli di apprendimento automatico vengono addestrati utilizzando enormi set di dati raccolti da numerose fonti su Internet. Questi set di dati sono troppo grandi per essere attentamente curati a mano, quindi potrebbero contenere esempi errati che compromettono le prestazioni del modello. Gli scienziati sanno anche che alcuni punti dati influiscono sulle prestazioni di un modello in determinate attività downstream più di altri.

I ricercatori del MIT hanno combinato queste due idee in un approccio che identifica e rimuove questi punti dati problematici, cercando di risolvere un fenomeno noto come errore del gruppo peggiore, che si verifica quando un modello ha prestazioni inferiori su sottogruppi minoritari in un set di dati di addestramento.

La nuova tecnica si basa sul metodo TRAK che, sviluppato sempre dal MIT, identifica gli esempi di formazione più importanti per un output di modello specifico. I ricercatori prendono le previsioni errate che il modello ha fatto sui sottogruppi di minoranza e usano TRAK per identificare quali esempi di formazione hanno contribuito maggiormente a quella previsione errata. “Aggregando queste informazioni tra le previsioni di test errate nel modo giusto, siamo in grado di trovare le parti specifiche della formazione che stanno riducendo complessivamente l’accuratezza del gruppo peggiore” spiega il ricercatore Andrew Ilyas.  

Successivamente gli scienziati rimuovono quei campioni specifici e riaddestrano il modello sui dati rimanenti. Poiché avere più dati di solito produce prestazioni complessive migliori, rimuovere solo i campioni che determinano errori del gruppo peggiore mantiene l’accuratezza complessiva del modello aumentandone al contempo le prestazioni sui sottogruppi di minoranza.

Un approccio più accessibile

In tre set di dati di apprendimento automatico, il metodo del team del MIT ha superato più tecniche. In un caso, ha aumentato l’accuratezza del gruppo peggiore rimuovendo circa 20.000 campioni di formazione in meno rispetto a un metodo di bilanciamento dei dati convenzionale. La  tecnica ha anche raggiunto una precisione maggiore rispetto ai metodi che richiedono di apportare modifiche al funzionamento interno di un modello.

“Questo è uno strumento che chiunque può usare quando si sta addestrando un modello di apprendimento automatico. Possono guardare quei punti dati e vedere se sono allineati con la capacità che stanno cercando di insegnare al modello” afferma Kimia Hamidieh, co-autore principale dell’articolo su questa tecnica.

In futuro i ricercatori vogliono migliorare le prestazioni e l’affidabilità della tecnica e garantire che il metodo sia accessibile e facile da usare per i professionisti che potrebbero un giorno implementarlo in ambienti del mondo reale.

“Quando hai strumenti che ti consentono di esaminare criticamente i dati e capire quali punti dati porteranno a pregiudizi o altri comportamenti indesiderati, ti dà un primo passo verso la creazione di modelli che saranno più equi e più affidabili” afferma Ilyas.

Questo lavoro è stato in parte finanziato dalla National Science Foundation e dalla U.S. Defense Advanced Research Projects Agency.

Foto Adobe Stock

Fonte: MIT News

Articoli correlati

Nonostante gli aerei siano tutto sommato responsabili soltanto di una minima parte delle emissioni di CO₂ che minacciano la salute […]

Alcuni ricercatori giapponesi si sono prefissati l’obiettivo di utilizzare il Machine Learning per meglio comprendere un nuovo processo produttivo: la […]

I ricercatori della Tohoku University hanno sviluppato un approccio basato sull’apprendimento profondo che semplifica la classificazione accurate di materiali bidimensionali […]

Agricoltura 4.0: le nuove frontiere nella progettazione di un ecosistema IoT sostenibile. Il concetto di agricoltura intelligente, o “smart agriculture”, […]