INTERVISTA - Cos'è l'AI? E come funziona?
L'ntervista #1 di [humans/AI] è con il miglior divulgatore di AI su piazza, Giacomo Ciarlini, co-founder di una società dal nome incredibile: Datapizza. E' lunga, ma anche a pezzi leggetela.
Hello humans,
buona settimana. Quello di oggi è un Numero Veramente Speciale. Capirete sotto il perché. Prendetevi il vostro tempo, leggetelo a pezzi, ma leggetelo, perché questo post vi servirà a capire meglio tutto quello che avete letto finora e che leggerete sull’AI, qui o altrove. Ci ho lavorato un sacco, insieme a Giacomo che vedete sopra che ride di fianco a me, e se questo post vi piace, giratelo ai vostri amici, perché credo che sia davvero utile. Io sono Matteo Montan e questa è [humans/AI] e se volete saperne di più sulla newsletter e su di me trovate tutto nelle Info. E ora, andiamo!
UNA LUNGA MA DOVEROSA INTRODUZIONE
Diversamente da un libro, una newsletter non ha un inizio. O meglio, non ha un inizio uguale per tutti, perché per ogni lettore il racconto inizia dal giorno in cui si iscrive. Su Substack, però, che è una piattaforma di blogging che manda le email, questo è un po’ meno vero, perché ogni autore ha la possibilità di fissare sulla home page della propria newsletter i post che per qualche motivo ritiene debbano restare in evidenza.
L'intervista che state per leggere è stata pensata per restare a lungo in bella mostra sulla home page di [humans/AI] perché il suo contenuto, anche se arriva quasi due mesi dopo l’avvio delle pubblicazioni, può essere considerato in qualche modo l’inizio del progetto, il libretto di istruzioni che ogni lettore dovrebbe studiare per trarre il meglio di quello di cui scrivo ogni giorno. Questa intervista, infatti, cerca di rispondere a due domande fondamentali:
● Che cos'è l'intelligenza artificiale generativa?
● E come funziona?
Avrei potuto realizzare questa intervista subito, come primo post. O avrei potuto scrivere io un pezzo per rispondere a queste domande, alla fine ho studiato abbastanza per poterlo fare decentemente. Oppure, ancora, avrei potuto girare queste domande a uno dei tanti docenti universitari che in Italia si occupano da anni di machine learning o a qualche guru dell’AI (sì, anche in Italia ne abbiamo qualcuno). Ma scientemente non ho fatto nulla di tutto questo. Ho atteso, aspettando di trovare la persona giusta a cui affidare questo compito secondo me molto importante. Alla fine, mi sono imbattuto in quello che, secondo me, è il più bravo divulgatore di AI in circolazione. Ed eccoci qui.
L’ospite di questa intervista, la prima di [humans/AI] ma sicuramente non l’ultima, è nato un paio di generazioni dopo la mia, ha 29 anni e uno stile all’apparenza molto diverso dal mio (la newsletter che scrive è zeppa di emoji) ma sotto sotto poi non così tanto. Si chiama Giacomo Ciarlini, ed è un nerd di ultima generazione, imprenditivo, figo, doppio orecchino. Vive a Milano, ed è uno dei fondatori di Datapizza.
La mia prima domanda, Giacomo, è: perché i nostri lettori per farsi spiegare l'intelligenza artificiale dovrebbero prendere sul serio uno che lavora in un’azienda che si chiama Datapizza?
Bella domanda... Datapizza è nata come un aggregato di talenti tech, persone appassionate di AI che un giorno hanno deciso di raccontare in maniera semplice questa materia difficile, che allora si chiamava Machine Learning. Cinque anni fa già tutti noi interagivamo con i sistemi di raccomandazione, per esempio, ma non se ne sapeva nulla. Datapizza è nato dunque come progetto di divulgazione creato da persone tecniche con una caratteristica rara, la capacità di spiegare cose complicate senza far sbadigliare chi ascolta. Pezzo dopo pezzo, abbiamo costruito una community di 500.000 persone, soprattutto di formazione tech.
Da lì abbiamo identificato nuove opportunità: prima abbiamo offerto alle aziende un servizio di recruiting, dando loro accesso ai talenti tech della nostra community. Poi abbiamo portato la divulgazione dentro le imprese. E quando dalla sera alla mattina è arrivata ChatGPT, abbiamo visto la grande opportunità di portare finalmente l'AI dentro alle aziende e integrarla nei loro, perché spiegare i vantaggi dell’AI a un CEO facendolo giocare con un chatbot era diventato infinitamente più semplice ed efficace che parlargli di reti neurali. Da allora, chiunque, dentro e fuori le aziende, ha deciso di usare l'AI, ma con tentativi più o meno goffi, perché alla fine ci si muove in un ambito che affonda le radici nella statistica e che ti cambia sotto le mani ogni mese. Quindi abbiamo aggiunto l’ultimo pezzo, la consulenza alle aziende per sviluppare con loro progetti di AI.
Se oggi vai sul nostro sito troverai scritto che noi di Datapizza vogliamo un'Italia competitiva nel tech, vogliamo massimizzare l'educazione AI pro-capite. Dunque, rispondendo alla tua domanda, credo che per questo abbia senso prenderci sul serio per spiegare cosa è e come funziona l’AI. Quanto al nome... ci piaceva l'idea della condivisione della conoscenza, che è come quando mangi una pizza… Quindi parliamo di dati... Datapizza!
1. COSA È L’AI (PRIMA E DOPO CHATGPT)
Grazie Giacomo, io conoscevo già la risposta, ma era giusto che la avessero anche i lettori di [humans/AI] E il nome, personalmente, lo trovo brillante e memorabile, senza quello probabilmente non ti avrei notato… Allora, scherzi a parte, partiamo dalla prima domanda, facile facile: che cos'è la AI generativa? Perché è di questa che stiamo parlando, no?
Uhm, facciamo un piccolo passo indietro. Cosa non è l'AI generativa? Prima degli ultimi sei-sette anni, da quando Google ha elaborato l'architettura chiamata transformer che è alla base dei modelli di linguaggio dell'AI generativa, si faceva comunque AI. Il percettrone, che è la versione base delle reti neurali alla base dell'intelligenza artificiale, è stato teorizzato negli anni '60, ma ci potevi fare ben poco perché mancava la potenza di calcolo per addestrarlo.
Reti neurali, potenza di calcolo, addestramento: ti fermo un attimo, spiegaci meglio…
OK… allora cominciamo col dire che le reti neurali sono delle strutture matematiche ispirate al cervello umano che elaborano informazioni attraverso nodi interconnessi tra loro, proprio come i nostri neuroni, apprendendo dai dati che sono stati immessi al loro interno per fare previsioni. Per processare questi dati servono tantissimi calcoli, attraverso i quali l'AI “vede” i dati e viene addestrata, e in questo senso “impara”.
OK, chiaro. Ora possiamo tornare all’AI pre ChatGPT…
Sì… Allora, già prima di ChatGPT c'era un sacco di AI non generativa. Una che tutti conosciamo è quella legata agli algoritmi di raccomandazione nei prodotti che usiamo ogni giorno: quello che vedi nel tuo feed di Instagram, il prodotto consigliato su Amazon, la prossima serie TV su Netflix. Questa è l'AI pre-generativa, che per altro è ancora il 99% dell'intelligenza artificiale di cui si parla quando vediamo "AI" scritto da qualche parte in un nuovo prodotto. La potremmo chiamare AI discriminativa, cioè, addestrata a distinguere e classificare classi determinate ed a scegliere tra un set di possibili output.
E cosa cambia con ChatGPT?
Facciamo un salto in avanti fino al 2017, quando Google realizza la prima architettura Transformer. Con l'AI generativa cambia il paradigma: invece di discriminare, quindi andare dal generale al particolare, la ricerca comincia a fare il contrario, parte dal particolare e lo espande, crea nuove cose. Questo nuovo approccio è stato esplorato per la prima volta tramite il linguaggio e poi velocemente applicato a qualsiasi altra forma di dato come immagini, suoni, etc.
Senza entrare troppo nel dettaglio, il Transformer è un sistema che riesce ad essere pre-addestrato su un vasto ammontare di dati non etichettati (senza cioè che qualcuno li abbia classificati manualmente), come ad esempio il web, e poi addestrato a completare una frase che l'utente mette in input. Ad esempio, io scrivo "Ciao, come stai?", premo invio, e il modello calcola la probabilità del suo completamento in funzione di quello che ha visto su internet. Su internet avrà visto tantissime volte conversazioni tipo "Ciao, come stai?" "Io tutto bene e tu?", e quindi cercherà di completare con "Io tutto bene e tu?"
2. I LARGE LANGUAGE MODEL (LLM)
Stiamo parlando degli LLM, Large Language Model, giusto?
Esatto. Alla fine, bisogna pensare che un modello di linguaggio è sempre un modello statistico, probabilistico. Ha un dizionario interno che ha estratto dal testo letto durante il suo addestramento, e da questo dizionario seleziona le parole che più probabilmente seguono alla parola precedente.
All'inizio sono stati fatti esperimenti in piccola scala che hanno dimostrato la validità di questo approccio, creando semplici "completatori" di una o due parole. Poi OpenAI ha preso l'esperimento di Google e ha iniziato a scalarlo enormemente su tre dimensioni: dati immessi nel sistema, tempo di addestramento e dimensione del modello. Facendo questo esperimento, il team di OpenAI ha scoperto le leggi che governano la progressione dei software di intelligenza artificiale lungo questi tre assi, le cosiddette Scaling Laws. Queste leggi stanno guidando lo scaling a modelli di dimensioni enormi, e di conseguenza gli investimenti miliardari in data center, l'approvvigionamento massivo di dati, la produzione di chip sempre più potenti e, in ultima analisi, un consumo sempre maggiore di energia.
I modelli che conosciamo oggi possono avere finalità diverse, ma alla fine appartengono tutti alla famiglia del Transformer, l'architettura inventata da Google da cui ereditano più o meno le stesse proprietà: l'essere strumenti probabilistici, avere bisogno di tanti dati di addestramento, e così via.
Ovviamente si stanno esplorando strade alternative a questa architettura, a volte completandola, a volte provando a sostituirla, ma per ora con scarsi risultati: magari funzionano su piccoli esperimenti, ma non mantengono la proprietà del Transformer di progredire all'aumentare delle leggi di scala. Quindi diciamo che è ancora lo stato dell'arte.
E chi sono i protagonisti di questa grande rivoluzione tecnologica?
Sicuramente le big tech americane: Google, Microsoft, Meta e Amazon. Fa eccezione Apple che è un po' indietro, essendo più una hardware company che fa anche tecnologia. Le big tech creano AI sia attraverso i propri lab, sia tramite startup o scale-up partecipate o controllate come OpenAI e Anthropic, cui forniscono non solo fondi ma anche tecnologie e potere di calcolo. Poi c'è xAI di Elon Musk, e ci sono i cinesi, su tutti Alibaba e DeepSeek. Ma l'ecosistema si sta popolando rapidamente di laboratori indipendenti che riescono a raccogliere investimenti importanti per sviluppare nuovi modelli e applicazioni.
3. I CHATBOT, LA PORTA DI ACCESSO AGLI LLM
Parliamo a questo punto dell’interfaccia che serve ad interrogare i modelli, i cosiddetti chatbot…
Per interagire con l'AI, fino ad ora le persone hanno usato un applicativo chiamato chatbot, che è la porta di entrata e uscita dal modello sottostante che sta come dentro una scatola chiusa. All'inizio, quando è uscito ChatGPT, la funzionalità era solo text in - text out: tu scrivi e il bot ti risponde. Ma i modelli di AI ora si stanno evolvendo verso il multimodale, quindi prendono in input più o meno qualsiasi tipo di dato - testo, audio, immagini, video - e danno in output più o meno qualsiasi tipo di dato. Questo è possibile perché l'architettura Transformer è general purpose: come riesce a codificare il testo in bit e poi di nuovo in testo, la stessa cosa riesce a farla con qualsiasi altro tipo di dato digitale.
Spesso questi chatbot non hanno solo la funzionalità di chat, ma aggiungono altre feature molto utili, come ad esempio la ricerca sul web, con la quale il modello integra la conoscenza che gli è stata data durante il suo addestramento. Questo permette all'AI di creare virtualmente tutto quello che vi viene in mente, dalle strutture delle proteine a sequenze temporali, ma anche oggetti, per esempio attraverso la stampa 3D.
4. IL TRAINING DEGLI LLM
Hai appena toccato un punto chiave: l’addestramento. Come apprendono i modelli?
Ci sono due fasi principali nell'addestramento di un modello AI prima di metterlo in produzione.
La prima è il pre-training, dove faccio "vedere" al modello in modo non supervisionato un sacco di dati, soprattutto materiale preso dal web che viene chiamato training dataset. In questa fase l'AI costruisce una sorta di dizionario, una rappresentazione sofisticata del mondo così come lo interpretano gli umani, apprendendo le conoscenze che gli umani hanno sviluppato e che sono finite dentro il dataset.
Se una cosa non è presente nel dataset di training, l'AI non la sa, non la incorpora. Al termine del pre-training ottengo quello che si chiama Raw Model, modello grezzo, che alla fine è come un gigantesco file, un'enorme matrice di numeri: milioni, centinaia di milioni, miliardi di numeri. Un'analogia efficace è immaginare il modello come un foglio Excel da milioni di righe e colonne, dove in ogni cella c'è un numero decimale. Questa mega matrice prende le parole in entrata, le codifica in numeri, le moltiplica per tutti i numeri del file, e calcola la probabilità che ogni parola nel suo dizionario sia la successiva, prende quella più probabile e la scrive, riconvertendola da numeri a testo.
Dopo questa fase di pre-training, il raw model non interagisce ancora con un chatbot, ma completa solo testo. Se gli si dà in input il titolo di un articolo su una nuova Tesla, tipo "Ecco la nuova Tesla Model Z di Elon Musk, ecco le sue caratteristiche", il modello scriverà un articolo verosimile che potrebbe completare quella frase. I modelli di linguaggio, insomma, sono come gli autocomplete di testo che tuti usiamo ma con gli steroidi.
Ed è qui che entra in gioco il token, giusto? Puoi spiegare in una battuta cosa significa questa parola e perché ne sentiamo parlare così spesso?
Il token è l'unità minima di elaborazione del testo che un LLM riesce a leggere e scrivere. Per esempio, la frase "Ciao, come stai?" potrebbe essere suddivisa in 5 token: "Ciao" (1), la virgola (2), "come" (3), "stai" (4), il punto interrogativo (5). Di token si parla per esempio per indicare i limiti di un modello linguistico: un modello può fissare a 8.000 token, circa 6 pagine di testo, il limite massimo dei documenti che può gestire in input e output. Oppure se ne parla a proposito del costo di un servizio, ad esempio tot dollari ogni 1000 token elaborati.
OK. Torniamo all’addestramento: finito il pre-training del modello, che succede?
Inizia la fase successiva chiamata post-training, suddivisa a sua volta in due sottofasi:
La prima si chiama Supervised Fine Tuning: prendo il raw model e una serie di esempi di conversazioni utili tra umani, gliele faccio vedere e gli dico: "Guarda, questo è come gli umani interagiscono, si assegnano task e li portano a termine". Faccio quindi un fine tuning del modello, do una specializzazione a questo cervello numerico, gli insegno le capacità.
La seconda sottofase del post-training si chiama Reinforcement Learning From Human Feedback: prendo il modello addestrato a parlare come gli umani e lo faccio interagire con tanti umani veri, raccolgo feedback, e uso questi feedback come segnali da reincorporare nel ciclo di addestramento per rendere l'interazione più piacevole e insegnare al modello a seguire meglio le istruzioni.
Quindi il ciclo completo è: addestro il modello dandogli conoscenza, mappo bene questa conoscenza, gli insegno come gli umani interagiscono tra loro, poi gli insegno a interagire bene con gli umani. Alla fine gli collego un chatbot che mi servirà per interagire con il modello.
Restiamo ancora un attimo sul Reinforcement Learning From Human Feedback: funziona un po' come un quiz a premi, vero?
Esatto, proprio per questo si chiama Reinforcement Learning. E’ un approccio all'apprendimento dei software - detto appunto machine learning - che prevede di dare ricompense e penalità al modello in funzione delle azioni compiute, in questo caso in funzione di quanto il modello parla bene con il suo valutatore umano. Se il trainer gli dà un voto alto (da 8 a 10), questa ricompensa positiva tarerà il modello affinché la prossima volta faccia una conversazione simile. Viceversa, se l'umano valuta con un voto basso la conversazione, il modello terrà conto della penalità ricevuta per le interazioni future.
5. USARE GLI LLM: DAL PROMPT ALLA RISPOSTA
OK Giacomo, a questo punto abbiamo il nostro modello completamente addestrato e l’interfaccia pronta all’uso: cosa succede nel momento in cui chiediamo qualcosa attraverso il chatbot?
OK. Sei nell'interfaccia di chat, magari selezioni nel menu a tendina il modello che vuoi utilizzare (più o meno recente, più o meno veloce), scrivi il tuo comando - il cosiddetto prompt - e premi invio. A quel punto comincia la tua interazione. La “stringa” del tuo comando viene mandata al modello di linguaggio che sta dietro le quinte, in un server nel cloud. Il modello scrive il completamento del tuo comando, e questo completamento ti viene mostrato nella chat.
Prima di fare questo completamento, a volte il sistema può eseguire altre azioni, come cercare informazioni sul web per arricchire la risposta, o scrivere ed eseguire del codice per effettuare un calcolo o compiere un'analisi. Quindi la tua interfaccia è la chat, e il modello di linguaggio che c'è dietro è l'orchestratore.
Naturalmente, ci sono modelli molto generalisti come ChatGPT e modelli pensati per fare cose molto specifiche, per esempio il text-to-CAD. Tu fornisci in input un prompt testuale, e il modello dietro le quinte crea un disegno CAD che rappresenta quello che hai scritto, restituendolo in un file renderizzato che poi puoi modificare, come un qualsiasi disegno CAD.
All’inizio mi aveva colpito che il modo per interagire con una roba pazzesca come l’AI fosse una banale chat. La cosiddetta “interfaccia conversazionale” alla fine si sta dimostrando super efficace, però: secondo te è destinata a restare?
Secondo me sì, la chat rimarrà una parte molto importante, poi che sia testuale, vocale, in video, o attraverso onde del cervello elettromagnetiche, sarà sempre uno scambio avanti e indietro.
Oltre al chatbot c’è in realtà un altro modo di interagire con i modelli, le cosiddette API, acronimo di Application Programming Interface. Cosa sono?
Allora, diciamo intanto che le API sono la modalità con cui i software in generale comunicano su Internet, scambiandosi messaggi, informazioni, e comandi. Perché allora usare un chatbot piuttosto che le API? Secondo me, un'analogia che può funzionare è questa: usare un chatbot è come comprare l'olio al supermercato: vai a casa, è già pronto, lo versi sul cibo e sei a posto; usare le API è come andare da un tizio che vende le taniche d'olio e dirgli: “ok, me ne servono tot litri ogni tot giorni, perché poi con quell'olio devo avviare una produzione di tot saponette ogni tot mesi. Quindi, tornando all’AI, nel primo caso con il chatbot ottengo la cosa pronta che mi serve, plug and play, nel secondo ho un processo più complesso da realizzare e mi attacco alla materia prima, che in questo caso è l’intelligenza, che poi mi servirà per farci un sacco di cose: da costruire piccole automazioni a realizzare progetti più complessi in cui ad esempio si impiegano i modelli di linguaggio per etichettare in modo estremamente efficiente grandi quantità di dati destrutturati e renderli strutturati, una cosa in cui gli LLM sono bravissimi.
OK. I chatbot sanno usarli tutti. Ma se voglio far parlare il mio PC direttamente con il modello AI preferito attraverso le API, posso farlo io? Che competenza è richiesta?
La barriera d'ingresso per sviluppare API e connettere un modello ad un altro applicativo, per un utente medio di AI è ancora abbastanza alta, in genere serve ancora una persona tecnica che ti aiuta. Dopo di che, è anche vero che il divario si sta riducendo, e che ci sono un sacco di tool che permettono a chi non sa niente di programmazione di creare codice con semplici prompt in linguaggio naturale. Questo approccio però funziona per ottenere il cosiddetto MVP, Minimum Viable Product (Prodotto Minimo Funzionante, ndr) cioè un’applicazione che funziona e che puoi testare ma che poi devi dare in mano ad una persona tecnica per renderla scalabile, robusta e commercialmente utilizzabile.
6. AGENTI AI & AI AUTONOMA
A questo punto, è il momento di introdurre un nuovo termine molto popolare: AI agent. Cos’è? E in cosa è diverso dal chatbot?
Allora, come abbiamo detto il chatbot è un sistema che risponde a messaggi, può essere più o meno avanzato, come ora ChatGPT, ma in genere resta reattivo: aspetta l’input dell’utente e risponde. L’agente è un sistema più avanzato, perché può agire in autonomia. Oltre a rispondere al tuo input, può prendere l’iniziativa, usare strumenti esterni come il browser del PC, pianificare più passaggi e raggiungere obiettivi. Diversamente dal chatbot è proattivo, non solo reattivo.
Chiaro. A questo punto siamo pronti per affrontare l’aspetto più suggestivo dell'intelligenza artificiale: l’autonomia e l’idea che ad un certo punto questa tecnologia possa automigliorarsi al punto di diventare più intelligente di noi ed eventualmente decidere che noi non siamo più necessari. Non è sci-fi, in questi anni centinaia di ricercatori, imprenditori, premi Nobel hanno firmato appelli per chiedere regole che scongiurino questo rischio. Oggi il tema è decisamente meno di moda, Trump e tutte le big tech che gli si sono rapidamente accodate hanno di fatto abbandonato il tema della sicurezza in nome del dominio americano sull’AI, ne abbiamo parlato spesso su [humans/AI]. Ti chiedo: che punto è arrivata, secondo te, l’autonomia dell’AI?
Dipende da cosa si intende per autonomia, ci sono vari gradi di autonomia di un sistema. Se diciamo che autonomia è compiere dei task complessi senza la supervisione umana, quello l’AI può già farlo allora. Un agente tipo Deep Research, fa tante operazioni in autonomia, svolgendo ricerche approfondite per conto nostro. Noi stessi a Datapizza costruiamo per i nostri clienti agenti autonomi che supportano le persone in azienda nei loro task. Quindi queste AI sono autonome, ma ovviamente fino a un certo grado, e il grado lo decide l'umano che crea o configura il sistema. Dobbiamo quindi distinguere tra autonomia e arbitrio dell’AI: non mi preoccupo assolutamente di un’AI che sceglie di fare qualcosa che va contro il task per cui è stata programmata. Il problema è se qualcuno l’ha programmata male.
Sarà, ma nell'uso quotidiano dell’AI è molto evidente che il chatbot spesso nelle sue risposte va ben oltre le nostre intenzioni, e lo fa per venirci incontro, per farci vedere che comunque lui ha sempre una risposta, anche a costo di inventarla. Sono le famose allucinazioni. Ma se questa deriva rispetto alle nostre buone intenzioni la manifesta un agente AI a cui magari ho dato l'accesso ai miei dati aziendali? Metti per esempio che non abbia scritto perfettamente il prompt e lui per un eccesso di zelo fa una grande stronzata che manda in crash i sistemi aziendali? È possibile, secondo te?
Eh, questo sì, assolutamente. Ma questi di nuovo sono errori di umani che in fase di programmazione non confinano bene l’AI, non definiscono il recinto di autonomia del software, o non mettono in atto misure di difesa quando questi software vengono attaccati e indotti a fare cose, , ad esempio tramite prompt injection, che è una tecnica con cui un terzo cerca di manipolare un sistema AI inserendo istruzioni nascoste nel testo per aggirare le sue regole di sicurezza.
Quindi la risposta completa alla tua domanda è che i sistemi hanno già gradi di autonomia piuttosto importanti, perché oggi molti modelli riescono a fare una serie di azioni multi-step senza perdere il filo e senza commettere troppi errori. Cosa che non era vera un anno fa, perché la probabilità di sbagliare un compito continua a ridursi nel tempo e diminuisce anche la probabilità di errore lungo tutta lunga catena di azioni. Dopodiché il fatto di programmarli e usarli in modo più o meno sensato e sicuro fa tutta la differenza nel mondo tra una cosa utile e una cosa che ti spacca metà l'azienda.
Ed è fondata, secondo te, paura dell’autonomia dell’AI?
Beh, la risposta breve, secondo me, è no. Non ha senso averne paura. L'ultima cosa che mi preoccupa è l'AI autonoma, quello che mi preoccupa è come gli umani possono usarla. Ci sono cose molto più concrete di cui preoccuparsi, come l'impatto che questa tecnologia ha sul lavoro, sui processi cognitivi delle persone, che è qualcosa che è già qui.
7. I REASONING MODELS
Tutti questi nostri timori rispetto all’AI, credo, nascono dal fatto che nessuno sa esattamente cosa c'è dentro questi immensi modelli. Perché è così?
Tendenzialmente, un modello statistico più diventa sofisticato più è una black box, perché ha tanti parametri che gli umani non riescono a interpretare. Un LLM ha centinaia di miliardi di parametri, quindi è un fatto puramente numerico: alla fine non sappiamo cosa c'è dentro perché le combinazioni sono praticamente infinite. È anche vero però che la ricerca sull'interpretabilità dei modelli sta crescendo molto. Ad esempio, aziende come Anthropic hanno identificato metodi per mappare i concetti all'interno della matrice di numeri, analizzare quali numeri hanno più peso sul risultato e, attraverso una sorta di reverse engineering, spiegare perché il modello ha dato una certa risposta e non un’altra.
Si chiama se non sbaglio “interpretabilità meccanicistica” ed è il campo che più mi affascina dell’AI: capire come ragionano i modelli. Restando in tema, arriviamo ai nuovi reasoning model, quelli che ti fanno vedere come arrivano alla risposta simulando il pensiero umano. Sono solo affascinanti da vedere, oppure questo “ragionamento” ha davvero una sua funzione?
I reasoning models sono il nuovo paradigma su cui si costruiranno tutte le prossime innovazioni nell'AI. Lo vediamo già con modelli come ChatGPT o1 e o3, DeepSeek r1 che vengono addestrati ulteriormente, dopo le fasi iniziali, ad autoverificare le proprie risposte, come se si allenassero in un simulatore. Come ha fatto il famoso AlphaGo quando ha battuto il campione di Go nel 2016, in campi verificabili come matematica, fisica e logica, i reasoning models diventano velocemente molto potenti. Questi modelli vengono addestrati a riflettere prima di rispondere, proprio come la mente umana: fanno una traccia di ragionamento e solo alla fine danno la risposta. Non rispondono in modo immediato come i modelli non-reasoning, ma si prendono più tempo, usando in quella fase ulteriore potere di calcolo che gli permette di affinare la risposta.
8. LA NUOVA RIVOLUZIONE CINESE
E qui arriviamo alle ultime novità cinesi, al rivoluzionario modello di DeepSeek…
Sì… DeepSeek è stato veramente una grossa sopresa: non è un modello di frontiera americano ma è intelligente uguale ed è molto più economico, ed in più è open source, in realtà più precisamente open weight, ma in questo contesto non fa una grande differenza, cioè aperto e disponibile a chiunque lo voglia usare o modificare. Questo significa dare in mano a chiunque abbia la voglia di smanettarci un modello di partenza veramente efficace, un po' come se avessi un link da cui scaricare sul PC un buon mini-reattore nucleare. Quella di DeepSeek è una disruption inarrestabile, un trend definitivo.
Con l’arrivo di DeepSeek si è parlato molto di distillazione, cos’è esattamente?
Torniamo alle Scaling Laws, secondo cui un modello più è grande e potente, più è intelligente. Tutto questo viene a un costo ovviamente, sia per addestrarlo, che per eseguirlo, cioè farlo girare. Mettiamo che a me per un determinato task non serva il modello di frontiera enorme e molto intelligente, mi basta un quinto della sua intelligenza, e naturalmente voglio pagare un quinto del costo per farlo girare, cosa faccio? Creo una versione compressa, appunto distillata, del modello più grande, e lo faccio tramite il solito reinforcement learning, dove però non c'è più l'uomo che dà premi, i voti, eccetera, ma c'è un altro modello che lo fa. In pratica, c'è un modello insegnante, più grande, che insegna al modello piccolo, studente, solo le cose che gli servono, e lo ottimizza solo per quei concetti e quelle abilità che davvero servono per eseguire quel determinato compito. Il risultato è che su quella singola specializzazione far girare il modello mi costerà una frazione, ma la performance sarà pari al 99,9% del gigantesco modello insegnante.
OK. E se voglio addestrare questo piccolo modello su un campo specifico, che ne so, la produzione di acque minerali visto che ho qui la mia bottiglia? La conoscenza sul settore delle acque minerali il modello studente la distilla dal modello insegnante, oppure gliela devo fornire io a parte?
La distilla dal modello generale, che probabilmente è già in grado di generare un dataset sintetico sul settore dell'acqua minerale di tutto rispetto. In più, magari, nel corso del processo di training gli butti dentro anche un po’ di tua documentazione addizionale sull'acqua minerale, che male non fa.
9. AGI
Dai piccoli modelli, ai grandi modelli: parliamo di AGI, acronimo di Artificial General Intelligence e sinonimo di super-intelligenza artificiale, superiore a quella umana per capirci. L’attuale ricerca sull’AI viene descritta come una gara tra Lab a chi arriva per primo all’AGI. Fino a qualche tempo fa l’AGI fa veniva descritta come una sorta di big bang, un momento catartico in cui improvvisamente l’AI diventava più intelligente di noi in tutti i campi del sapere. Secondo alcuni, per esempio il CEO di Anthropic, sembrava questione di un paio d’anni. Sam Altman, CEO di OpenAI, ora più prudentemente parla di un traguardo progressivo. Sicuramente, la retorica della corsa all’AGI serve a rendere sempre più sexy i Lab per gli investitori, un po’ come è stato lo spettro dell’autonomia potenzialmente distruttiva per l’umanità. Tu come la vedi, questa AGI?
Allora, secondo me AGI è un concetto molto fumoso, e per me non ha molto valore parlarne in termini pratici. Per esempio, anche un modello come GPT 3.5, che non è più in uso, da un certo punto di vista poteva essere considerato intelligenza artificiale generale perché faceva tante cose. Ma la domanda è: come le faceva? E quanto le faceva bene?
Un sistema che con un buon grado di autonomia fa la maggior parte dei task dei white collar mediani, per come la vedo io, potrebbe essere definito AGI. Quindi per fare un esempio pratico, costruisco un'architettura con Claude Sonnet 3.7 che fa da orchestratore, o1 di OpenAI che fa il pianificatore e sotto una serie di modelli veloci e parallelizzabili che fanno gli esecutori e gli dico: "Ho bisogno di un report dettagliato sul tema X che influenza le decisioni strategiche della mia azienda per i prossimi cinque anni, torna da me tra due settimane" e lui dopo due settimane torna con il report giusto, quella è AGI? Boh, non lo so, ma per me è estremamente utile. Questo per dire che la definizione che spesso si dà di AGI come AI più intelligente in tutti i campi di tutti gli esseri umani, secondo me è una definizione troppo stretta, inutile… o meglio, utile solo a definire i parametri finanziari delle aziende che si dicono in corsa per l'AGI.
10. I PROSSIMI 12 MESI
Cosa pensi che succederà nei prossimi 12 mesi?
Credo avremo architetture agentiche via via più sofisticate e basate su modelli più affidabili. E poi modelli di ragionamento estremamente sofisticati, con la curva dei costi rispetto all’intelligenza che continua a crollare. Inoltre, continuerà a migliorare la qualità dei modelli tipo speech-to-speech, generazione audio e video. In pratica avremo contemporaneamente tre driver di miglioramento: l’interfaccia dei prodotti, il modello sottostante e i costi del modello. E questo creerà un circolo virtuoso: il prodotto migliora perché si scopre meglio come gli utenti lo usano, il modello migliora perché vengono testati modelli più intelligenti e a parità d'intelligenza i costi crollano, quindi puoi usare più intelligenza.
E poi, vedo l'inizio di investimenti pesanti delle aziende dopo un anno e mezzo di sperimentazioni e progetti pilota.
Parlando con imprenditori, o professionisti, hai però la sensazione che ci sia ancora tanta alfabetizzazione da fare nelle aziende.
Tutti stanno a zero, vero. Però è una tecnologia di cui è molto facile dimostrare il ritorno dell’investimento, e questo ovviamente creerà un grosso incentivo.
Già. Abbiamo parlato di possibili problemi dell’AI: eccessi di autonomia, impatti sociali e cognitivi. Ma l’AI è associata ovviamente all’idea di miglioramento della vita umana. Soprattutto la ricerca biologica e biomedica sono considerate aree dove ci sarà lo sviluppo maggiore, proprio perché esistono tantissime ricerche parcellizzate in giro per il mondo e l'intelligenza artificiale ha questa incredibile capacità di mettere tutte le informazioni insieme, normalizzarle ed estrarne valore. In questo campo, un’immagine forte che viene spesso utilizzata è quella dell’AI che alla fine sconfiggerà il cancro. Tu ti aspetti a breve grandi breakthrough nella ricerca?
Sì, su ogni ricerca scientifica, assolutamente. Questo è il grande tema dei prossimi 2/3 anni: abilitare questi sistemi a fare ricerca in modo autonomo per velocizzare i processi di sviluppo, in tutti gli ambiti, incluso quello della stessa AI. Quindi, per me lo scenario è quello di una AI che riesce costantemente ad automigliorarsi, dal software alle metodologie con cui si addestra. Non credo però che questo processo avverrà con una curva di crescita di tipo esponenziale, ma piuttosto di tipo logaritmico, cioè, rallentando man mano che ci si spinge verso la perfezione. E credo che l’AI possa portare a breakthrough architetturali di se’ stessa di cui poi beneficeranno tanti altri campi di ricerca, ma sempre in collaborazione con gli umani. È quello che capiterà, non lo farà da sola.
Grazie, Giacomo. E’ tutto per oggi, a domani!
Matteo Montan
si potrebbe avere il link all'interview?