Meta ha avuto un successo significativo lo scorso anno con Segment Anything, un modello di apprendimento automatico in grado di riconoscere e identificare in modo rapido e affidabile quasi qualsiasi cosa in un'immagine. La seconda parte, che il CEO Mark Zuckerberg ha presentato lunedì sul palco del SIGGRAPH, porta il modello nello spazio video, mostrando quanto velocemente si sta muovendo il settore.
Segmentazione è il termine tecnico utilizzato quando un modello visivo guarda un'immagine e ne sceglie le parti: “Questo è un cane, e questo è un albero dietro il cane” si spera, non “Questo è un albero che cresce da un cane”. Questo accade da decenni, ma recentemente è diventato molto migliore e più veloce, con Segment Anything che rappresenta un enorme passo avanti.
Qualsiasi cosa, seconda parte (SA2) Questo è un seguito naturale in quanto si applica nativamente ai video e non solo alle immagini fisse; Sebbene sia possibile, ovviamente, eseguire il primo modello su ogni fotogramma del video individualmente, non è il flusso di lavoro più efficiente.
“Gli scienziati usano queste cose per studiare le barriere coralline, gli habitat naturali e cose del genere”, ha detto Zuckerberg in una conversazione con il CEO di Nvidia Jensen Huang, “Ma essere in grado di farlo in video e catturarlo in modo accurato e dirgli quello che vuoi è carino Freddo.”
L'elaborazione video è ovviamente più impegnativa dal punto di vista computazionale, il che testimonia i progressi compiuti nel settore nell'efficienza con cui SA2 può funzionare senza causare il collasso del data center. Naturalmente, questo è ancora un modello enorme e necessita di hardware potente per funzionare, ma una segmentazione rapida e flessibile era praticamente impossibile anche un anno fa.
Il modello, come il primo, sarà aperto e gratuito e non si parla di una versione ospitata, qualcosa che a volte le aziende di intelligenza artificiale offrono. Ma esiste una versione di prova gratuita.
Naturalmente, un modello del genere richiede un'enorme quantità di dati per essere addestrato e Meta ha anche rilasciato un ampio ed eccezionale database di 50mila video creato appositamente per questo scopo. Nel documento che descrive SA2, per la formazione è stato utilizzato anche un altro database di oltre 100.000 video “disponibili internamente”, e questo database non è stato reso pubblico – ho chiesto a Meta maggiori informazioni su cosa sia e perché non è stato reso pubblico. (Crediamo provenga da profili pubblici su Instagram e Facebook).
Meta è pioniere dell’IA “aperta” da diversi anni, anche se in realtà (come ha sottolineato Zuckerberg nella conversazione) lo fa da molto tempo, utilizzando strumenti come PyTorch. Ma più recentemente, LLaMa, Segment Anything e alcuni altri modelli che ho pubblicato gratuitamente sono diventati un vincolo relativamente accessibile alle prestazioni dell'intelligenza artificiale in questi campi, sebbene la loro “apertura” sia argomento di dibattito.
Zuckerberg ha affermato che l'apertura di Meta non è del tutto dettata dalla bontà, ma ciò non significa che le loro intenzioni siano impure:
“Questo non è semplicemente un pezzo di software che puoi costruire: hai bisogno di un ecosistema attorno ad esso. Questo software non funzionerebbe altrettanto bene se non lo rendessimo open source, non è vero? perché siamo persone altruiste, anche se penso che sarà positivo per l’ecosistema: lo facciamo perché crediamo che ciò renderà migliore ciò che costruiamo”.
Sicuramente sarà messo a frutto, però. Visita GitHub qui.