Il modello di visione artificiale di Microsoft genererà testo alternativo per le immagini Reddit

Tecnologia

Il modello di visione artificiale di Microsoft genererà testo alternativo per le immagini Reddit

Angioletto Bellucci

Marzo 7, 2023

Il modello di visione artificiale di Microsoft genererà testo alternativo per le immagini Reddit

Crediti immagine: Jean-Luc Echard / Getty Images

Due anni fa, Microsoft ha annunciato Florence, un sistema di intelligenza artificiale che ha promosso come un “ripensamento completo” dei moderni paradigmi di visione artificiale. A differenza della maggior parte dei paradigmi di visione dell’epoca, Florence era “unitaria” e “multimodale”, nel senso che poteva (1) comprendere il linguaggio così come le immagini e (2) gestire una serie di compiti piuttosto che essere limitata ad applicazioni specifiche, come creazione di didascalie.

Ora, come parte dell’impegno più ampio e continuo di Microsoft per commercializzare la sua ricerca sull’intelligenza artificiale, Florence arriva come parte di un aggiornamento delle API Vision in Servizi cognitivi di Azure. Microsoft Vision Services supportato da Florence viene lanciato oggi in anteprima per i clienti Azure esistenti, con funzionalità che vanno dai sottotitoli automatici, rimozione dello sfondo e riepilogo video al ripristino delle immagini.

“Florence è stata addestrata su miliardi di coppie di immagini e testo. Di conseguenza, è incredibilmente versatile”, ha dichiarato a TechCrunch John Montgomery, CVP di Azure AI, in un’intervista via e-mail. “Chiedi a Florence di trovare un fotogramma specifico in un video, e lei può farlo; chiedigli di dire la differenza tra una mela Cosmic Crisp e una mela Honeycrisp, e lui può farlo.”

La comunità di ricerca sull’intelligenza artificiale, che include giganti della tecnologia come Microsoft, è sempre più unita attorno all’idea che i modelli multimediali siano il miglior percorso verso sistemi di intelligenza artificiale più capaci. Naturalmente, i modelli multimediali – forme che, ancora una volta, comprendono molteplici modalità, come linguaggio e immagini o video e audio – sono in grado di eseguire compiti in un’unica ripresa che i modelli non modali (ad esempio, annotare video) non possono.

Perché non raggruppare insieme diversi modelli “monomodali” per raggiungere lo stesso fine, come uno che comprende solo le immagini e un altro che comprende esclusivamente il linguaggio? Ci sono diverse ragioni, la prima è che in alcuni casi i modelli multimodali svolgono meglio lo stesso compito rispetto alla loro controparte unimodale grazie alle informazioni contestuali provenienti da modalità aggiuntive. Ad esempio, è più probabile che un assistente AI che comprende immagini, dati sui prezzi e cronologia degli acquisti fornisca suggerimenti personalizzati sui prodotti rispetto a uno che comprende solo i dati sui prezzi.

La seconda ragione è che i modelli multimodali tendono ad essere più efficienti dal punto di vista computazionale, il che accelera l’elaborazione e (presumibilmente) riduce i costi sul back-end. Microsoft è un’azienda orientata al profitto e questo è senza dubbio un vantaggio.

Allora che dire di Firenze? Ebbene, dal momento che comprende immagini, video, linguaggio e le relazioni tra questi metodi, può fare cose come misurare la somiglianza tra immagini e testo o suddividere oggetti in un’immagine e incollarli sullo sfondo di un’altra.

Ho chiesto a Montgomery dei dati utilizzati da Microsoft per addestrare Florence, una domanda opportuna, però, dato questo Cause pendenti Può decidere se i sistemi di intelligenza artificiale formati su dati protetti da copyright, comprese le immagini, violano i diritti dei proprietari di proprietà intellettuale. Non ha voluto fornire dettagli, tranne per il fatto che Florence utilizza fonti di dati “responsabilmente ottenute” “compresi i dati dei partner”. Inoltre, Montgomery ha affermato che i dati sulla formazione di Florence sono stati omessi da contenuti potenzialmente problematici, un altro Una caratteristica molto popolare Dai set di dati di formazione generale.

“Quando si utilizzano modelli di base di grandi dimensioni, è fondamentale garantire la qualità del set di dati di addestramento, per creare la base per i modelli adattati per ogni attività di visione”, ha affermato Montgomery. “Inoltre, i modelli modificati per ogni attività di visione sono stati testati per l’equità, il contraddittorio e i casi difficili e hanno implementato gli stessi servizi di moderazione dei contenuti che abbiamo utilizzato per Azure Open AI Service e DALL-E.”

Crediti immagine: Microsoft

Dovremo fare i conti con la parola dell’azienda. Alcuni clienti, a quanto pare. Montgomery afferma che Reddit utilizzerà le nuove API basate su Florence per creare didascalie per le immagini sulla sua piattaforma, creando “testo alternativo” in modo che gli utenti con problemi di vista possano seguire meglio i thread.

FirenzeEssere in grado di creare fino a 10.000 tag per immagine, ha affermato Montgomery, darebbe a Reddit un maggiore controllo sul numero di oggetti in un’immagine che possono selezionare e aiuterebbe a creare didascalie molto migliori. Reddit utilizzerà anche i sottotitoli per aiutare tutti gli utenti a migliorare il posizionamento degli articoli per i post di ricerca.

Microsoft utilizza anche Florence per una vasta gamma di piattaforme, prodotti e servizi.

Su LinkedIn, come su Reddit, i servizi alimentati da Florence creeranno didascalie per modificare e supportare le descrizioni delle immagini con testo alternativo. In Microsoft Teams, Florence guida le capacità di segmentazione dei video. PowerPoint, Outlook e Word sfruttano le funzionalità di presentazione fotografica di Florence per generare testo alternativo automatico. I designer e OneDrive, per gentile concessione di Florence, hanno migliorato l’etichettatura delle immagini, la ricerca delle immagini e la creazione di sfondi.

Montgomery prevede che Florence venga utilizzata dai clienti per altre attività future, come il rilevamento di difetti di produzione e l’attivazione del self-checkout nei negozi al dettaglio. Nessuno di questi casi d’uso Richiede Modello di visione multimediale, ci tengo a precisare. Ma Montgomery sostiene che la multimedialità aggiunge qualcosa di prezioso all’equazione.

“Florence è un completo ripensamento dei paradigmi visivi”, ha affermato Montgomery. “Una volta che esiste una traduzione semplice e di alta qualità tra immagini e testo, si apre un mondo di possibilità. I clienti potranno sperimentare una ricerca di immagini notevolmente migliorata, addestrare modelli di immagini, visione e altri tipi di modelli come il linguaggio e il parlato in modo completamente nuovi tipi di applicazioni e migliorare facilmente la qualità delle loro versioni personalizzate.”

LEAVE A REPLY Cancel reply