Crediti immagine: David Paul Morris/Bloomberg/Getty Images
Se volessi espandere la tua grande azienda tecnologica e avessi 10 milioni di dollari da spendere, come li spenderesti? In una pubblicità del Super Bowl? Sponsorizzazione della F1?
Voi Potevo Investilo nell'addestramento del tuo modello di intelligenza artificiale generativa. Sebbene non siano marketing nel senso tradizionale, i modelli generativi attirano l'attenzione e sono sempre più diretti ai prodotti e ai servizi principali dei venditori.
Guarda DBRX di Databricks, un nuovo modello di intelligenza artificiale annunciato oggi simile alla serie GPT di OpenAI e Gemini di Google. Disponibili su GitHub e sulla piattaforma di sviluppo AI Hugging Face per la ricerca e per uso commerciale, le versioni base (DBRX Base) e ottimizzate (DBRX Instruct) di DBRX possono essere eseguite e configurate su dati pubblici, personalizzati o privati .
“DBRX è addestrato per essere utile e fornire informazioni su una vasta gamma di argomenti”, ha dichiarato a TechCrunch Naveen Rao, vicepresidente dell'intelligenza artificiale generativa presso Databricks. “Il DBRX è stato ottimizzato e messo a punto per l'uso in inglese, ma è in grado di parlare e tradurre in un'ampia gamma di lingue, come francese, spagnolo e tedesco.”
Databricks descrive DBRX come “open source” allo stesso modo dei modelli “open source” come Llama 2 di Meta e i modelli emergenti di intelligenza artificiale Mistral. (È un argomento forte discussione Se questi modelli soddisfano effettivamente la definizione di open source.)
Databricks afferma di aver speso circa 10 milioni di dollari e otto mesi per addestrare DBRX, che sostiene (citando un comunicato stampa) “supera le prestazioni”.[s] Tutti gli attuali modelli open source sono conformi agli standard standard.
Ma, ed ecco il problema del marketing, DBRX è estremamente difficile da usare a meno che tu non sia un cliente Databricks.
Questo perché per eseguire DBRX nella configurazione standard è necessario un server o un PC con almeno quattro GPU Nvidia H100. Un singolo H100 costa migliaia di dollari, forse di più. Questo potrebbe essere un piccolo cambiamento per l’impresa media, ma per molti sviluppatori e imprenditori individuali è fuori portata.
Una buona stampa per l'avvio. Databricks afferma che le aziende con oltre 700 milioni di utenti attivi dovranno affrontare “alcune restrizioni”. paragonabile a Meta's per Llama 2 e che tutti gli utenti dovranno accettare i termini che garantiscono che utilizzino DBRX “responsabilmente”. (Databricks non aveva fornito volontariamente i dettagli di questi termini al momento della pubblicazione.)
Databricks offre il suo prodotto Mosaic AI Foundation Model come soluzione gestita a questi colli di bottiglia, che oltre a eseguire DBRX e altri modelli fornisce un pacchetto di formazione per ottimizzare DBRX su dati personalizzati. I clienti possono ospitare DBRX privatamente utilizzando il modello di offerta di Databricks, ha suggerito Rao, oppure possono collaborare con Databricks per distribuire DBRX sull'hardware di loro scelta.
Rao ha aggiunto:
Il nostro obiettivo è rendere la piattaforma Databricks la scelta migliore per la creazione di modelli personalizzati, quindi il vantaggio finale per Databricks è avere più utenti sulla nostra piattaforma. DBRX è una dimostrazione della nostra migliore piattaforma di pre-formazione e messa a punto, che i clienti possono utilizzare per costruire i propri modelli da zero. È un modo semplice per i clienti di iniziare a utilizzare gli strumenti di intelligenza artificiale generativa di Databricks Mosaic AI. Il DBRX è altamente capace e può essere messo a punto per prestazioni eccellenti specifiche per l'attività e una migliore economia rispetto ai modelli chiusi più grandi.
Databricks afferma che DBRX funziona fino a 2 volte più velocemente di Llama 2, grazie in parte alla sua combinazione di architettura Expert (MoE). MoE, che DBRX condivide con Llama 2, i modelli più recenti di Mistral e Gemini 1.5 Pro recentemente annunciato da Google, suddivide essenzialmente le attività di elaborazione dei dati in più sottoattività e quindi delega tali sottoattività a modelli “esperti” più piccoli e specializzati.
La maggior parte dei modelli del Ministero dell’Istruzione prevede otto esperti. DBRX ne ha 16, che secondo Databricks migliora la qualità.
Ma la qualità è relativa.
Mentre Databricks afferma che DBRX supera i modelli Llama 2 e Mistral in alcune misure di comprensione del linguaggio, programmazione, matematica e logica, DBRX non è all'altezza del principale modello di intelligenza artificiale generativa, GPT-4 di OpenAI, nella maggior parte delle aree al di fuori di casi d'uso specializzati come come programmazione di database. Generazione del linguaggio.
Rao ammette che DBRX ha anche altri limiti, vale a dire che, come tutti gli altri modelli di intelligenza artificiale generativa, può cadere vittima di risposte “allucinogene” alle domande nonostante il lavoro di Databricks nei test di sicurezza e la collaborazione con Red. Poiché il modello è semplicemente addestrato ad associare parole o frasi a determinati concetti, se queste associazioni non sono completamente accurate, le sue risposte non saranno sempre accurate.
Inoltre, DBRX non è multimodale, a differenza di alcuni dei più recenti modelli di intelligenza artificiale generativa, tra cui Gemini. (Può elaborare e creare solo testo, non immagini). Non sappiamo esattamente quali fonti di dati siano state utilizzate per addestrarlo; Rao avrebbe solo rivelato che nessun dato dei clienti Databricks è stato utilizzato nella formazione DBRX.
“Abbiamo addestrato DBRX su un ampio insieme di dati provenienti da una varietà di fonti”, ha aggiunto. “Abbiamo utilizzato set di dati aperti che la comunità conosce, ama e utilizza ogni giorno.”
Ho chiesto a Rao se qualcuno dei set di dati di addestramento DBRX fosse protetto da copyright, concesso in licenza o mostrasse evidenti segni di parzialità (ad esempio, pregiudizi razziali), ma non ha risposto direttamente, dicendo solo: “Siamo stati attenti ai dati utilizzati”, Sono stati condotti esercizi del team rosso per migliorare i punti deboli del modello. I modelli di intelligenza artificiale generativa tendono a duplicare i dati di addestramento, il che è una delle principali preoccupazioni per gli utenti commerciali di modelli addestrati su dati senza licenza, protetti da copyright o chiaramente distorti. potrebbe finire Un utente si trova in difficoltà etiche e legali per aver incorporato involontariamente lavoro che viola i diritti di proprietà intellettuale o è distorto da un modello nei propri progetti.
Alcune aziende che addestrano e rilasciano modelli di intelligenza artificiale generativa offrono polizze che coprono le spese legali derivanti da una potenziale violazione. Databricks al momento non lo fa: Rao afferma che la società sta “esplorando scenari” in cui ciò potrebbe essere fatto.
Considerato questo e altri aspetti in cui DBRX non riesce a raggiungere il bersaglio, il modello sembra difficile da vendere a chiunque tranne che ai clienti Databricks esistenti o potenziali. I concorrenti di Databricks nello spazio dell'intelligenza artificiale generativa, incluso OpenAI, offrono tecnologie altrettanto se non più interessanti a prezzi molto competitivi. E molti modelli di intelligenza artificiale generativa si avvicinano più alla definizione comune di open source rispetto a DBRX.
Rao promette che Databricks continuerà a migliorare DBRX e a rilasciare nuove versioni mentre il team di ricerca e sviluppo di Mosaic Labs, il team dietro DBRX, indaga su nuovi metodi di intelligenza artificiale generativa.
“DBRX sta spingendo avanti lo spazio di modellazione open source e sfidando i modelli futuri da costruire in modo più efficiente”, ha affermato. “Rilasceremo varianti man mano che applicheremo tecniche per migliorare la qualità dell'output in termini di affidabilità, sicurezza e bias… Consideriamo il modello aperto come una piattaforma su cui i nostri clienti possono creare funzionalità personalizzate utilizzando i nostri strumenti.”
A giudicare dalla posizione attuale di DBRX rispetto ai suoi concorrenti, la strada da percorrere è molto lunga.