L’apprendimento automatico sta diventando sempre più integrato in un’ampia gamma di domini. Il suo utilizzo si estende ampiamente a tutti i settori, compreso il mondo delle interfacce utente (UI), dove è fondamentale per prevedere i dati semantici. Questa applicazione non solo migliora l’accessibilità e semplifica i test, ma aiuta anche ad automatizzare le attività relative all’interfaccia utente, risultando in applicazioni più snelle ed efficienti.
Attualmente, molti modelli si basano principalmente su set di dati di screenshot statici valutati da esseri umani. Ma questo approccio è costoso e rivela tendenze inaspettate agli errori in alcune attività. Poiché non possono interagire con il widget nell’app live per confermare le loro conclusioni, gli annotatori umani devono fare affidamento esclusivamente su prove visive per valutare se un widget è cliccabile da un’istantanea.
Nonostante gli svantaggi derivanti dall’utilizzo di set di dati che registrano solo istantanee statiche delle visualizzazioni delle app mobili, sono costosi da utilizzare e mantenere. Tuttavia, a causa dell’abbondanza di dati, questi set di dati sono ancora preziosi per l’addestramento delle reti neurali profonde (DNN).
Di conseguenza, i ricercatori Apple hanno sviluppato il sistema AI Never-Ending UI Learner in collaborazione con la Carnegie Mellon University. Questo sistema interagisce costantemente con le applicazioni mobili reali, consentendogli di migliorare continuamente la comprensione dei nuovi modelli e tendenze di progettazione dell’interfaccia utente. Scarica in modo indipendente le app dagli app store mobili ed esamina attentamente ciascuna app per trovare scenari di formazione nuovi e stimolanti.
Ad oggi, Never-Ending UI Learner ha esplorato oltre 5.000 ore di utilizzo dei dispositivi ed eseguito oltre 500.000 azioni su 6.000 app. Come risultato di questa interazione prolungata, verranno addestrati tre diversi modelli di visione artificiale: uno per prevedere la possibilità di fare clic, un altro per prevedere la possibilità di scorrere e un terzo per determinare la somiglianza dello schermo.
Esegue più interazioni, come clic e passaggi, sui componenti all’interno dell’interfaccia utente di ciascuna applicazione durante questa ricerca. I ricercatori affermano che classifica gli elementi dell’interfaccia utente utilizzando l’euristica del designer, determinando proprietà come se un pulsante può essere toccato o un’immagine può essere spostata.
Con l’aiuto dei dati raccolti, vengono addestrati modelli che prevedono la cliccabilità e la trascinabilità degli elementi dell’interfaccia utente e la somiglianza delle schermate visive. La procedura end-to-end non richiede altri esempi etichettati come esseri umani, anche se il processo può iniziare con un modello addestrato su dati etichettati come esseri umani.
I ricercatori hanno confermato che questo metodo di studio attivo delle applicazioni presenta dei vantaggi. Aiuta la macchina a identificare condizioni difficili che i tipici set di dati trasmessi dall’uomo ignorerebbero. A volte le persone potrebbero non notare tutto ciò che è tangibile sullo schermo perché le immagini non sono sempre molto chiare. Tuttavia, il crawler può fare clic sugli elementi e vedere immediatamente cosa sta succedendo, fornendo informazioni più chiare e migliori.
I ricercatori hanno mostrato come i modelli addestrati su questi dati siano migliorati nel tempo, con un’accuratezza della previsione della cliccabilità che ha raggiunto l’86% dopo cinque cicli di addestramento.
I ricercatori hanno sottolineato che le app incentrate sulle soluzioni di accessibilità potrebbero trarre vantaggio da aggiornamenti più frequenti per rilevare modifiche minori. D’altro canto, intervalli di tempo più lunghi che consentono l’accumulo di modifiche più significative all’interfaccia utente possono essere preferibili per attività quali il riepilogo o l’estrazione di modelli di progettazione. Conoscere le tempistiche migliori per la riqualificazione e gli aggiornamenti richiederà ulteriori ricerche.
Questo lavoro sottolinea il potenziale di un apprendimento senza fine, consentendo ai sistemi di adattarsi e progredire man mano che ricevono continuamente più dati. Mentre il sistema attuale si concentra sulla modellazione di semantiche semplici come la cliccabilità, Apple spera di applicare principi simili per apprendere rappresentazioni più complesse di interfacce utente mobili e modelli di interazione.
Controlla il carta. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti Abbiamo oltre 31.000 subReddit ML, Oltre 40.000 comunità Facebook, Canale Discordia, E Newsletter via e-maildove condividiamo le ultime notizie sulla ricerca sull’intelligenza artificiale, interessanti progetti sull’intelligenza artificiale e altro ancora.
Se ti piace il nostro lavoro, adorerai la nostra newsletter.
Siamo anche su WhatsApp. Unisciti al nostro canale di intelligenza artificiale su WhatsApp..
Rachit Ranjan è una stagista consulente presso MarktechPost. Attualmente sta conseguendo una laurea in tecnologia presso l’Indian Institute of Technology (IIT) Patna. Sta attivamente plasmando la sua carriera nel campo dell’intelligenza artificiale e della scienza dei dati ed è appassionato e dedito all’esplorazione di questi campi.