L'arma segreta contro le allucinazioni più o meno alla portata di tutti
Come un business meeting con un gruppo di commercialisti e la lettura di un articolo sulla Mayo Clinic possono dare vita (grazie a Claude e ChatGPT) a un esempio di giornalismo nell'era della AI
Hello humans,
oggi ho scelto una strada diversa, del resto è passato solo un mese dal primo numero e ho una gran voglia di sperimentare. Su cosa, lo leggete sotto. Io sono Matteo Montan e questa è [humans/AI] e se volete saperne di più sulla newsletter e su di me trovate tutto nelle Info. E ora, andiamo!
Oggi vi racconto come nelle ultime 48 ore la mia esperienza umana si è intrecciata con l’AI e come - in ultima analisi - può nascere un numero di [humans/AI], che di questo esattamente si occupa. Questo post, lo anticipo, può essere interessante soprattutto per coloro che usano o intendono usare l’AI a scopo professionale, da X che ha uno studio legale con una decina di addetti a Y che gestisce una clinica privata con qualche centinaio di persone.
L’inizio della storia
Lunedì pomeriggio in uno degli incontri di AI Literacy che ogni tanto organizzo per amici professionisti, imprenditori etc etc ho incontrato un gruppo di commercialisti che hanno acquistato un sistema di AI personalizzato con cui fare un po’ di cose, tipo redigere contratti, perfezionare pareri etc. Per capirci, si tratta di un chatbot come quelli che usiamo tutti i giorni, ma più specializzato: è collegato in qualche modo a un database di informazioni di tipo giuridico, fiscale etc , ha una serie di argomenti preimpostati, una interfaccia web sotto user e password che sembra un gestionale degli anni ottanta e un costo irrisorio, poco più di 3.000 euro per 25 utenze per 3 anni.
Nell’incontro, alcuni dei commercialisti intorno al tavolo hanno manifestato una certa frustrazione: alla fine, scava, scava il sistema speso da risposte poco convincenti, a volte rimandando a leggersi le norme (tante grazie), a volte innescando il sospetto di essere di fronte a una cosiddetta allucinazione tipica dell’AI (informazione inventata per colmare lacune).
Durante l’incontro, in un test live su un caso di compravendita di titoli in Ungheria (credo), il sistema messo alle strette ha ammesso che l’aggiornamento della normativa di riferimento era ferma al 2023, un bel problema specie in materia fiscale dove la produzione di norme è pressoché continua e proliferano gli accordi bilaterali tra Stati (gran parte dei clienti dei commercialisti ovviamente sono aziende anche piccole ma che lavorano regolarmente con l’estero). Alla fine, insomma, dopo un po’ di ragionamenti su come affinare le richieste per minimizzare errori e lacune, ci siamo lasciati tutti un po’ perplessi sul come utilizzare al meglio questo sistema.
La storia si sviluppa
Arriviamo a ieri sera, divano, serie TV spagnola in background. Nella mia continua ricerca di notizie da sviluppare in questa newsletter, mi imbatto in questo articolo di VentureBeat dal titolo: L'arma segreta di Mayo Clinic contro le allucinazioni AI: Reverse RAG in azione (si capisce già dal titolo che la testata è abbastanza sensazionalista anche se sempre piuttosto aggiornata: gli articoli vanno sempre verificati, e qui l’AI serve a meraviglia, facendo le giuste domande e usando le applicazioni giuste incrociandole tra loro).
Scorro velocemente il testo sull’iPhone e la prima cosa che mi viene in mente, è girare in tempo reale l’articolo a un amico dentista che sta iniziando a applicare l’intelligenza artificiale al suo lavoro e con cui spesso parliamo di AI (a dire il vero parla più lui, perché di solito quando ci vediamo io ho 3 persone sopra che mi lavorano dentro la bocca).
Stamattina, nel classico dormiveglia in cui inizio e pensare cosa scrivo oggi, mi viene l’idea di rileggere nuovamente l’articolo, ma mettendomi nei panni dei commercialisti di lunedì. Così mi alzo e comincio a elaborare. Di pensiero in pensiero, saltando da Claude (che non ha accesso al web, e le dico sempre di spicciarsi se no disdico il Professional Plan), a ChatGPT (che accesso al web ce l’ha eccome) a Perplexity (che è un vero motore di ricerca AI), prende così corpo questo articolo, un po’ lungo ma spero utile a chi con l’AI ci lavora.
Le allucinazioni dell'AI negli ambiti specifici: medicina, fisco, diritto etc
Il problema delle allucinazioni nei modelli di linguaggio di grandi dimensioni (LLM) affligge chiunque usi l’AI ed è particolarmente critico in settori sensibili come la sanità, dove l'accuratezza delle informazioni può avere conseguenze dirette sulla salute dei pazienti: se un modello inventa informazioni che sembrano plausibili ma sono in realtà false, qui le implicazioni possono essere gravi.
Le allucinazioni negli LLM, che quasi sempre si manifestano attraverso la subdola tendenza dei chatbot di riempire i vuoti quando mancano informazioni appropriate per rispondere alle nostre richieste (i prompt), derivano molto spesso da:
Richiamo di documenti non rilevanti nelle risposte
Utilizzo di fonti obsolete o imprecise
Integrazione inadeguata tra le informazioni recuperate sul web e la conoscenza del modello
Per questo motivo, in ambiti verticali come la medicina ma anche la consulenza fiscale o la pratica legale, gli LLM tradizionali basati solo sulla conoscenza acquisita durante l'addestramento generale non sono sufficientemente affidabili, e fioriscono i sistemi verticali.
Due approcci per risolvere il problema
Per affrontare seriamente queste sfide nei settori verticali, esistono principalmente due strategie:
Creazione di modelli verticali specializzati: sono ottimizzati per un settore specifico, hanno una maggiore comprensione del contesto , ma hanno costi elevati di addestramento e manutenzione, le informazioni invecchiano rapidamente e ne deriva la necessità di frequenti aggiornamenti.
Integrazione tra LLM “generalisti” e RAG (Retrieval-Augmented Generation), la soluzione di cui ci occupiamo oggi (non prendete paura, adesso vi spiego tutto).
l RAG sono sistemi che sono stati inventati per migliorare le capacità dei modelli di linguaggio di grandi dimensioni (LLM) combinando due processi chiave:
Recupero: il modello cerca e recupera informazioni rilevanti da fonti di dati esterne come database, documenti o knowledge base.
Generazione: l'LLM utilizza queste informazioni recuperate da fonti esterne come contesto aggiuntivo per generare risposte più accurate e informate.
In pratica, invece di basarsi solo sulla conoscenza memorizzata durante l'addestramento, un modello con sistema RAG integrato può accedere a informazioni aggiornate e specifiche per rispondere meglio a una data domanda. Questo aiuta a ridurre le allucinazioni dell'AI e a fornire risposte più accurate e verificabili.
Anche i sistemi RAG comunque richiedono implementazioni complesse/costose (poi vedremo quanto, un singolo professionista NON se lo può permettere), e possono pure loro incappare in allucinazioni.
E qui arriva l’articolo sulla Mayo Clinic e la sua soluzione di RAG inverso
Per ridurre il rischio di errori nelle risposte dell’intelligenza artificiale, la Mayo Clinic ha sviluppato un metodo innovativo che nell’articolo di VentureBeat viene denominato RAG inverso.
A differenza dei sistemi RAG tradizionali, che si limitano a recuperare informazioni e utilizzarle direttamente per generare una risposta, l’approccio sperimentato dalla Mayo verifica ogni affermazione prima ancora che venga formulata. Il sistema lavora in due fasi: prima raccoglie e organizza le informazioni disponibili (c.d. clustering dei dati), poi le confronta con le fonti originali per assicurarsi che siano corrette. Se qualcosa non torna, viene eliminato o corretto prima che la risposta venga fornita.
Un elemento chiave del modello Mayo è l’uso di un secondo modello di intelligenza artificiale che controlla i collegamenti tra i dati raccolti e la risposta finale. In questo modo, il sistema non si limita a restituire informazioni, ma verifica che abbiano un senso e siano effettivamente supportate da fonti attendibili. E questo sembrerebbe ridurre drasticamente la possibilità di errori e rende le informazioni più affidabili.
NB: il metodo del RAG inverso per ora è stato adottato dalla Mayo Clinic soltanto per gestire cartelle cliniche , riducendo quasi completamente gli errori in un ambito importante ma comunque non critico. Chi lo ha creato, ora sta pensando di applicarlo anche a settori critici come la diagnostica.
La mia prova
Per capire io stesso - e poi provare spiegare a voi - come modelli più o meno evoluti gestiscono una stessa richiesta, a quel punto ho messo da parte per un momento l’articolo di VB e ho chiesto a Claude di costruire un piccolo caso.
Prima di tutto, le ho chiesto di creare una domanda di tipo medico (lei ha proposto "Quali sono i trattamenti raccomandati per la sindrome di Ehlers-Danlos?"), e poi di simulare e descrivere le diverse risposte a questa domanda fornire da 4 tipi di modelli più o meno avanzati/specializzati:
un LLM come Claude senza accesso al web
un LLM come ChatGPT con accesso al web
un LLM abbinato a sistema RAG standard
un LLM abbinato a sistema RAG inverso
Dopo avere letto le risposte di Claude, averle incrociate con ChatGPT e in parte Plerplexity, ho chiesto alle prime due di creare delle tabelle che tenessero conto di tutti gli aspetti di cui avevamo discusso, le ho ottimizzate e normalizzate e ho realizzato un’unica tabella, che vi incollo qui sotto.
Come vedete dal confronto, l'approccio RAG inverso adottato dalla Mayo Clinic sembra rappresentare un significativo avanzamento verso l'eliminazione delle allucinazioni tipiche dei sistemi di AI così cruciale in ambito medico.
In pratica cosa ha fatto oggi [humans/AI]?
Prima ha analizzato un articolo che racconta come la clinica Mayo ha implementato un nuovo modello che armonizza le cartelle cliniche eliminando (quasi) del tutto il problema delle allucinazioni riscontrare usando altri modelli.
Poi ha integrato l’articolo con il piccolo caso creato dal mio ragionamento e dall’AI che prova a spiegare a cosa è dovuto questo problema.
Niente di straordinario, ma appunto mi serve a spiegare come nasce un post nell’era dell’AI generativa.
Il passo successivo, a quel punto è stato chiedersi: ma un sistema come questo, potrebbe essere applicato a altri settori diversi dalla medicina, in cui l’accuratezza delle informazioni è fondamentale e il rischio di allucinazioni è critico (ovviamente mai come nella salute)?
E, ad esempio, potrebbe essere applicato nelle piattaforme di AI create per studi di commercialisti o avvocati, che come avevo potuto sperimentare usando LLM tradizionali o verticalizzazioni imperfette possono restituire normative obsolete, interpretazioni errate di leggi e regolamenti, etc etc?
Invece di chiedere all’AI se esistessero già sistemi avanzati di questo tipo in campo fiscale o forense (sicuramente, almeno in USA: ogni Paese ha comunque la sua legislazione e sistema di diritto), ho chiesto alle mie assistenti virtuali di aiutarmi a costruire un altro piccolo caso, per capire i costi ed i benefici di due possibili sistemi verticali di AI per professionisti più avanzati di quello testato nel mio incontro di lunedì:
il primo basato su LLM + RAG standard
il secondo basato su LLM + RAG inverso.
Saltando vari passaggi, ecco la sintesi del caso.
Immaginando che un fornitore di soluzioni di AI per studi professionali italiani che operano con l'estero intenda realizzare una piattaforma da zero, la scelta tra RAG tradizionale e RAG inverso dipenderà dal livello di rischio e affidabilità richiesto.
Per la maggior parte degli studi, un sistema LLM + RAG tradizionale è sufficiente.
Per servizi di alto livello, con responsabilità economicamente molto critiche, il RAG inverso è l’opzione più sicura.
Completamente diversi, del resto, sono i costi e i tempi di sviluppo sostenuti dal fornitore X per realizzare le due soluzioni:
investimento stimato tra 100.000 e 500.000€ e tempo di sviluppo fino ad un anno per la prima soluzione
investimento stimato oltre 500.000€ e 12-18 mesi per la seconda soluzione, scalabile e ad alta affidabilità.
Secondo le elaborazioni di Claude e ChatGpt, da questi investimenti comunque importanti (dicevamo all’inizio: non a portata di un singolo studio, ma neanche di un’associazione di studi medi) discendono costi mensili per il cliente finale (lo studio) molto diversi, adottando in ipotesi una formula SaaS (Software as a Service) come quella degli amici commercialisti, anche se ovviamente più avanzata:
RAG tradizionale: 500€ - 5.000€/mese
RAG inverso: 5.000€ - 50.000€/mese
Ecco anche qui una tabella di confronto dei 3 casi (quella dell’incontro di lunedì la chiamo Soluzione base testata)
In conclusione - e premesso che (almeno per ora) non sviluppo sistemi RAG e che il ritorno di qualsiasi investimento va verificato caso per caso - questa è la sintesi di questo piccolo secondo caso pensato per fare riflettere un professionista che sta scegliendo se e quale sistema verticale di AI adottare:
Il costo della soluzione testata è bassissimo e mette fuori mercato le altre ipotesi, ma come abbiamo visto presenta alcuni problemi che minano la fiducia di chi la deve usare (l’AI comunque richiede un qualche grado di fiducia, sennò ci si mette più tempo a verificare quello che fa piuttosto che farlo direttamente, esattamente come il navigatore)
Un’offerta di 500€/mese con RAG standard base potrebbe essere sufficiente per studi più piccoli ma comunque strutturati che vogliono accedere a un database aggiornato senza funzionalità avanzate.
I 5.000€/mese necessari per un RAG standard ma evoluta sarebbero forse sostenibili da grandi studi legali o di consulenza fiscale.
Il costo del RAG inverso (stimato dall’AI fino ad un max di 50.000€/mese) probabilmente se lo può permettere solo la Mayo Clinic, che non a caso è la clinica più famosa al mondo.
E’ tutto per oggi, a domani!
Matteo. M