Nelle ultime settimane lo è stato DALL-E 2 Generatore di immagini AI che fa scalpore su Twitter. Questa sera, Google ha pubblicato la propria versione chiamata “ImmagineUn profondo livello di comprensione del linguaggio è accoppiato con un “grado senza precedenti di realismo dell’immagine”. “
per me L’intelligenza artificiale di Google guida Jeff Dean, i sistemi di intelligenza artificiale come questi “possono liberare la creatività combinata tra uomo e computer” e Imagen “One Direction” [the company is] Stalking.” I progressi compiuti da Google Research, Brain Team nel modello di pubblicazione da testo a immagine sono un livello di realismo. Nel complesso, DALL-E 2 è per lo più realistico con i suoi risultati, ma uno sguardo più approfondito potrebbe rivelare le licenze tecniche offerte. (Per di più, assicurati di farlo Guarda questo video esplicativo.)
Imagen si basa sulla potenza dei grandi modelli linguistici dei trasformatori per comprendere il testo e dipende dalla potenza dei modelli di diffusione per generare immagini ad alta risoluzione. La nostra scoperta principale è che i modelli generici di linguaggio di grandi dimensioni (come T5), precedentemente addestrati su un set di solo testo, sono sorprendentemente efficaci nel codificare il testo per la sintesi di immagini: l’aumento delle dimensioni del modello linguistico in Imagen migliora sia l’accuratezza del campione che il testo dell’immagine allineamento molto più che aumentare le dimensioni del modello linguistico in Imagen. Modulo di pubblicazione delle immagini.
Per dimostrare questo progresso, Google ha creato uno standard per la valutazione dei modelli da testo a immagine chiamato DrawBench. I valutatori umani preferivano “Imagen ad altri modelli in confronti affiancati, per la qualità del campione e l’allineamento del testo dell’immagine”. Rispetto a VQ-GAN + CLIP, modelli a diffusione latente e DALL-E 2.
Nel frattempo, le metriche utilizzate per dimostrare che Imagen è più in grado di comprendere le richieste degli utenti includono relazioni spaziali, testi lunghi, parole rare e prompt difficili. Un altro progresso è la nuova ed efficiente architettura U-Net che “presenta maggiori efficienze di calcolo, maggiori efficienze di memoria e una convergenza più rapida”.
Imagen ottiene un nuovo punteggio FID di 7,27 sul set di dati COCO, senza alcun addestramento COCO, e i valutatori umani trovano che i campioni di Imagen siano uguali agli stessi dati COCO nell’allineamento del testo dell’immagine.
Sul fronte dell’impatto sociale, Google ha deciso di “non rilasciare un’icona o una demo pubblica” di Imagen in questo momento a causa di potenziali abusi. inoltre:
Imagen si basa su codec di testo addestrati su dati insaturi dell’intero Web, ereditando così i pregiudizi sociali e le limitazioni dei modelli linguistici di grandi dimensioni. Pertanto, esiste il rischio che Imagen crittograferà stereotipi e rappresentazioni dannose, il che guida la nostra decisione di non rilasciare Imagen per uso pubblico senza ulteriori salvaguardie.
Questo è quello che è stato detto, c’è un file Presentazione interattiva sul sitoe il Il documento di ricerca è disponibile qui.
Altro su Google AI:
FTC: utilizziamo i link di affiliazione per guadagnare. Di Più.
Dai un’occhiata a 9to5Google su YouTube per ulteriori notizie:
“Esploratore. Scrittore appassionato. Appassionato di Twitter. Organizzatore. Amico degli animali ovunque.”