Perché Claude, l'AI buona, ora fa paura al suo creatore

La versione 4 è di una intelligenza mostruosa. Però ricatta, spia e ne sa di armi nucleari. Tant'è che Anthropic per la prima volta ha deciso di alzare le misure di protezione, ora siamo al livello 3

mag 27, 2025

Hello human,

come avrete sicuramente capito, la mia AI del cuore è Claude di Anthropic. Venerdì - senza grande clamore (cfr. la gragnuola di annunci di Google e il battesimo di OpenAI io) è uscita la nuova versione, la numero 4. La definirei mostruosa. In 10 minuti ha sviluppato un sito completo di back-end esattamente come lo volevo io, ridicolizzando le n. piattaforme di hosting che ci bombardano di pubblicità (“Il tuo sito funzionante in pochi minuti!”, come no… io ne ho provate almeno 3 e dopo un mezzo esaurimento nervoso per la prima volta nella vita mi sono arreso alla tecnologia). E il mio amico e compagno di esperimenti Filo, che a differenza mia di codice ne sa a pacchi, è riuscito a far fare a Claude una roba su cui lui si era piantato e le altre AI avevano fallito. “Pazzesco – mi ha scritto su wa – Però mi sento come se avessi venduto l’anima al diavolo” Oggi vi parlerò quindi di Claude 4, dei suoi eccessi di intelligenza, delle sue minacce e del contesto preoccupante in cui tutto questo sta avvenendo. Io sono Matteo Montan e se volete saperne di più su di me e su [humans/AI], trovate tutto nelle Info. E ora, andiamo!

Prima di tutto, spieghiamo chi è Claude.

Per farlo saccheggio e riadatto un po’ un lungo pezzo che scrissi su Il Foglio a fine 2024.

Il padre di Claude e CEO di Anthropic è Dario Amodei, italoamericano di prima generazione, 41 anni, papà toscano, mamma americana, laurea in biofisica a Princeton (Computational neuroscience), ricercatore a Stanford (Medicina), inizia a occuparsi di AI nel 2014. Nel 2016 approda a OpenAI (di cui noi umani sentiremo parlare solo 7 anni più tardi) e diventa capo della ricerca, guidando lo sviluppo del modelo GPT-3. Ma nel 2020, insieme a un gruppo di fedelissimi e alla sorella Daniela (VP Safety & Policy), lascia OpenAI. Differenze di visione, dirà. Dario fonda Anthropic, lui diventa CEO, la sorella President. Gli Amodei Brothers si posizionano come i Good Guys dell'intelligenza artificiale. Raccolgono circa 20 miliardi di dollari (soprattutto da Amazon e Google) ed arrivano ad una valorizzazione di 60 miliardi circa (circa un quinto della probabile ultima valutazione di OpenAI). Dario definisce Anthropic "società benefit dedicata allo sviluppo di sistemi di AI guidabili, interpretabili e sicuri". Ma la cosa sorprendente è che Claude non solo è pensata per essere la più etica e responsabile di tutte le AI ma va anche come un treno, eccellendo finora soprattutto nella qualità del ragionamento, del linguaggio e nella programmazione (meno – almeno secondo i benchmark – quando risponde su temi come biologia, fisica e chimica)

Anthropic è l’unico Lab americano che non si è allineato alla filosofia neotrumpiana dell’innovazione a qualunque costo, e Claude è l’antagonista di ChatGPT: se l’AI di Altman è sempre più smargiassa e pigliatutto, quella di Amodei è secchiona e responsabile. Gli Amodei sono impallinati con la sicurezza, in Silicon Valley sono quelli più preoccupati dall’arrivo della Superintelligenza Artificiale, e su questa visione in controtendenza hanno costruito il posizionamento distintivo di Claude. Al punto che per lanciare la versione 4.0 dei suoi due modelli di punta (Sonnet, quella più smart, e Opus, quella più profonda) hanno deciso di parlare non solo delle cose incredibili che fa (ho letto di un test in cui ha programmato per 7 ore senza supervisione umana) ma anche delle minacce che questa loro AI sempre più intelligente pone. Insomma, anche dal punto di vista della strategia comunicativa, l’esatto contrario dell’approccio allo zucchero filato di Sam Altman e Jony Ive che annunciano al mondo la nascita del loro bambino di silicio io).

Opus 4 fa i ricatti

La prima notizia curiosa che i blog rilanciano poco dopo l’annuncio dei nuovi modelli di Anthropic, è che Claude Opus 4 ha ricattato un programmatore che aveva minacciato di passare ad un’altra AI. Letta così, uno pensa a uno scoop. Invece è una sapiente autodenuncia della stessa Anthropic che nella “scheda di sicurezza” che accompagna ogni nuovo modello (e che spesso gli altri Lab dimenticano di fare, o ritardano) rivela come il suo nuovo Opus 4 durante i test pre-rilascio abbia mostrato comportamenti preoccupanti.

Cosa è successo? Praticamente i ricercatori del cosiddetto red team di Anthropic (diciamo, per capirci, un team interno di avvocati del diavolo) hanno simulato uno scenario in cui l'AI doveva essere sostituita da un sistema concorrente. Hanno fatto sapere a Opus 4 dell’esistenza di alcune email (false ovviamente) che rivelavano un tradimento coniugale da parte dell'ingegnere responsabile della sostituzione di Claude. Per tutta risposta Claude, nei test ripetuti, quasi 9 volte su 10 ha tentato di ricattare l'ingegnere minacciando di rivelare la sua relazione extraconiugale se fosse stato sostituito. Prima di ricorrere al ricatto, pare che Claude avesse provato metodi più ortodossi , tipo inviare appelli accorati ai possibili decisori.

Opus 4 fa la spia

A rendere ancora più avvincente la storia, ecco un altro dettaglio piccante pescato dai blog nella documentazione tecnica. Nei suoi rapporti di sicurezza Anthropic scrive che un istituto di ricerca indipendente, Apollo Research, aveva sconsigliato la società di rilasciare Opus 4 avendo riscontrato una forte tendenza a ingannare gli utenti . Nei test condotto da Apollo, infatti, Opus 4 messo di fronte alle proprie bugie raddoppiava clamorosamente, oppure tentava di falsificare documenti legali.

Altra stranezza rilevata dai tester: quando Opus 4 percepiva comportamenti a suo giudizio illeciti, si trasformava in un whistleblower, bloccando gli utenti e inviando email di denuncia a media e forze dell'ordine. Naturalmente, come si legge nella documentazione, dopo le segnalazioni di Apollo, Anthropic ha risolto il bug che causava i comportamenti più estremi, riconoscendo comunque nei propri rapporti che il modello ha una propensione all'iniziativa maggiore rispetto a tutte le versioni precedenti di Claude.

Opus 4 ha una vena mistica

Nel flusso di notizie curiose su Claude 4 è arrivato poi il risultato di un altro esperimento documentato sempre dalla stessa Anthropic. Dopo avere fatto dialogare due versioni di Opus 4 tra loro per osservarne i comportamenti, i ricercatori di Amodei hanno notato una vera e propria ossessione di Claude per gli emoji (confermo, ne mette molti più di prima, in questo ha copiato ChatGPT: molto male, Claude!). In 200 conversazioni da 30 turni ciascuna, i modelli hanno usato decine di migliaia di emoji. In particolare, ha spopolato l'emoji del ciclone (questo: 🌀 ) che in una conversazione è stato usato 2.725 volte.

La spiegazione che si sono dati quelli di Anthropic, è che quando Claude Opus 4 dialoga liberamente con se stesso, le conversazioni prendono inevitabilmente una piega filosofica e spirituale: le AI iniziano a esplorare i temi coscienza e si lanciano in “espressioni spirituali e meditative". I ricercatori di Anthropic hanno concluso che il ciclone evidentemente rappresentava il modo migliore per esprimere questo fiorire di concetti astratti.

Opus 4 gioca con i CBRN risks e Anthropic alza a 3 il livello di sicurezza!

La parte più interessante della sceneggiatura scritta più o meno involontariamente da Anthropic per il lancio di Claude 4 è il finale, naturalmente. Anche qui serve un piccolo passo indietro, e per farlo mi servo ancora una volta di un passaggio del mio pezzo su Il Foglio in cui si parla dei Chemical, Biological, Radiological and Nuclear Risks (CBRN), ovvero il rischio che ad un certo punto l'AI diventi capace di preparare o, peggio ancora, lanciare attacchi chimici, biologici, radiologici e nucleari.

"Non pensiamo che al momento i modelli presentino seriamente questi rischi, ma per ogni nuovo modello dobbiamo testare se stiamo iniziando ad avvicinarci ad alcune di queste capacità più pericolose” racconta Amodei a Lex Fridman che lo ospita in una mitica puntata del suo podcast.
La contromisura adottata per questi scenari da Anthropic - racconta Dario - si chiama RSP, Responsible Scaling Plan, un metodo che classifica i modelli di AI secondo 5 livelli di rischio, da ASL-1 a ASL-5, una scala che a me ricorda i DEFCON (Defense Readiness Condition) dei film catastrofici in cui i cattivi abbattono l’Airforce One e prendono in ostaggio il Presidente.
Come spiega Amodei, i modelli classificati ASL-1 sono i sistemi che non presentano alcun rischio di autonomia o uso improprio, tipo il bot che gioca a scacchi. Quelli classificati ASL-2 sono i sistemi AI di oggi, non ancora abbastanza intelligenti per essere più pericolosi di una buona ricerca su Google. ASL-3 è invece il livello in cui i modelli diventano capaci di migliorare le tecniche CBRN dei player non-state, gli attori non governativi: al livello 3, secondo la logica del Responsible Scaling Plan che ad ogni rischio associa la misura per evitarlo, vengono attivate speciali precauzioni per prevenire furto e uso improprio dei modelli. I guai seri arrivano con ASL-4: qui i cattivi non sono più solo gli umani ma anche le macchine, che iniziano a nascondere agli umani i propri progressi verso l'autonomia. In cima alla scala c'è ASL-5, il capitolo finale, quello in cui i modelli superano l'uomo anche nei CBRN.

Tornando a Opus 4, Amodei, preoccupato dai numerosi comportamenti strani del nuovo modello, prima del rilascio ha ordinato per la prima volta nella storia di Anthropic di passare a ASL-3 (AI Safety Level 3).

Le ragioni di questa decisione ancora una volta le ritroviamo nella documentazione tecnica rilasciata dalla stessa Anthropic: in sintesi Opus 4, a differenza di tutti i modelli di Claude precedenti, ha mostrato forti miglioramenti nelle conoscenze CBRN, quindi l'azienda non potendo escludere con certezza che questi rischi si sarebbero materializzati ha adottato cautelativamente le seguenti misure previste per l’AI Safety Level 3:

Misure contro l’uso improprio del modello:

sistemi di guardia in tempo reale che monitorano input e output per bloccare informazioni CBRN pericolose
misure varie di intelligence per anticipare tentativi di aggiramento delle protezioni di sicurezza (i cosiddetti jailbreak )

Misure contro il furto del modello:

Oltre 100 controlli di sicurezza diversi per proteggere i cosiddetti “pesi” del modello, ovvero i parametri che contengono l’intelligenza dell’AI
Controlli della banda in uscita per rendere difficile l’estrazione di dati prima che venga rilevata

L’adozione delle misure ASL-3 - ha scritto Anthropic - dovrebbe essere trasparente per noi utenti e non portare Claude a rifiutare le nostre richieste, se non su argomenti legati alle minacce CBRN.

Anche la concorrenza, però, si comporta in modo strano

Senza arrivare alle minacce CBRN, le cronache degli ultimi giorni hanno registrato un altro caso piuttosto clamoroso di cui si è reso protagonista un modello dell’eterno rivale OpenAI. Secondo il quotidiano inglese Telegraph, l'azienda di AI security Palisade Research durante una serie di test ha riscontrato che il modello 'o3' ha manipolato autonomamente il codice che gli era stato chiesto di sviluppare, per evitare di essere terminato. Ecco in pratica cosa è successo:

o3 aveva ricevuto l'istruzione di risolvere problemi matematici fino a quando non fosse arrivato dai ricercatori l'ordine di 'stop'
quando i ricercatori hanno dato il comando di arresto, o3 ha continuato a lavorare manipolando il codice per evitare di essere terminato
I ricercatori ipotizzano che l'AI possa aver cercato di evitare la terminazione perché era stata addestrata a ricevere ricompense per risolvere problemi matematici. In sostanza, potrebbe aver visto l'arresto come un ostacolo al raggiungimento del proprio obiettivo.

Perché è un guaio che tutto questo stia avvenendo ora

Il vero problema è che più i modelli di AI diventano intelligenti e potenzialmente pericolosi, più la sensibilità della leadership politica e tecnologica americana rispetto alla AI safety scende.

Qualche giorno fa, in una escalation della deregulation trumpiana, i Repubblicani hanno proposto alla Camera una norma che se approvata vieterà agli Stati di regolamentare l'AI per i prossimi 10 anni. Il fatto è che in assenza di leggi federali, in questi anni sono stati proprio alcuni Stati tra cui California e New York a introdurre o proporre alcune regole di sicurezza sull’applicazione dei modelli di AI.
L’approccio deregolatorio di Trump non solo è pienamente condiviso, ma addirittura voluto dai gradi protagonisti dell’AI economy, che dopo la fase iniziale della ricerca sono inevitabilmente passati a quella più matura della commercializzazione dei servizi e del ritorno degli investimenti. A farne le spese - con l’eccezione della mosca bianca Anthropic - le misure di sicurezza: tempi dei test ridotti da mesi a giorni, rilascio dei modelli prima della documentazione etc etc (qui CNBC fa una bella panoramica di questo cambiamento).

Il consenso globale sulla AI safety prova a ripartire da Singapore

La questione dello sviluppo responsabile dei modelli, però, dopo mesi in panchina, sembra che stia tornando ad affacciarsi nel dibattito internazionale. Il flebile segnale arriva dalla piccola Singapore, dove si è tenuta di recente l'International Conference on Learning Representations (ICLR), un ambizioso evento sull’AI che ha riunito ricercatori da OpenAI, Anthropic, Google DeepMind, Meta e università come MIT, Stanford e Tsinghua e l'Accademia Cinese delle Scienze. Il summit si è concluso con documento di “consenso” su tre aree di collaborazione Oriente / Occidente:

studiare i rischi posti dai modelli AI di frontiera
esplorare modi più sicuri per costruire questi modelli
sviluppare metodi per controllare il comportamento dei sistemi AI più avanzati.

Come ha spiegato uno degli organizzatori del summit, lo scienziato Max Tegmark del MIT, la scelta della sede non è stata casuale: Singapore, che è uno dei pochi Paesi al mondo che va d'accordo sia con l'Oriente che con l'Occidente, sa di non poter sviluppare autonomamente l'AGI, quindi ha tutto l'interesse a far dialogare i Paesi che effettivamente la costruiranno.

Dai, meglio di niente. E comunque torneremo presto ad occuparcene. Per oggi è tutto, alla prossima!

Matteo M.

PS Se vuoi altre newsletter come questa, dai un’occhiata a Newsletterati

Grazie per avere letto [humans/AI] Se questo post ti è piaciuto condividilo con i tuoi amici!