Il barometro dell'AI ha virato al brutto
I ricercatori sono sempre più preoccupati tra modelli manipolativi e effetti sul nostro modo di pensare e addirittura di parlare. Ma c'è una buona notizia all'inizio. E il finale è all'americana.
Hello human,
mi sembra che il barometro dell’AI negli ultimi giorni abbia virato al brutto. Almeno, questo mi dice il confronto tra numero di allarmi di vario tipo e numero di buone notizie (depurato naturalmente dalle decine di comunicati aziendali miracolosi che abbondano nelle newsletter senza human in the loop). Io sono Matteo Montan e se volete saperne di più su di me e su [humans/AI], trovate tutto nelle Info.
E ora, andiamo!
Direi per una volta di partire dalle good news, anzi dalla good news, perché di quelle serie ne ho trovata soltanto una. Poi, proseguiamo con gli allarmi che ci arrivano da alcune belle ricerche che parlano di:
Preoccupanti sfumature della personalità dei modelli
Preoccupanti impatti dell’AI sul nostro cervello
Preoccupanti ambiguità dell’AI nella Cybersecurity
GOOD NEWS / Arriva l’AI di Google che sa decodificare il DNA
Con AlphaGenome, l'AI di Google DeepMind sembra averci fatto fare davvero un notevole balzo in avanti nella comprensione del nostro DNA.
Per capire bene perché, occorre però fare un passo indietro, e tornare al 2003 quando fu completata per la prima volta la sequenziazione del genoma umano (l'intero set di istruzioni del DNA che determina una persona) e ci si accorse che questo codice era composto da 3 miliardi di lettere genetiche che non si sapeva bene cosa facessero. Ora AlphaGenome promette di riuscire a predire gli effetti di piccoli cambiamenti nel DNA, semplificando il lavoro dei biologi e rispondendo a domande basilari su come alla fine le mutazioni genetiche influenzino la nostra salute.
"Abbiamo questi 3 miliardi di lettere di DNA che compongono il genoma umano, ma ogni persona è leggermente diversa, e non capiamo completamente cosa facciano queste differenze", spiega Caleb Lareau, biologo computazionale al Memorial Sloan Kettering Cancer Center che ha avuto accesso anticipato ad AlphaGenome e che è stato intervistato da MIT Techonology Review "E questo modello di AI oggi è lo strumento più potente per modellare tutto ciò."
AlphaGenome permetterà di eseguire virtualmente, su computer, certi tipi di esperimenti che ora vengono fatti in laboratorio. Per esempio, gli studi sul DNA donato per la ricerca, che spesso rivelano migliaia di differenze genetiche a seconda del donatore, ognuna delle quali aumenta o diminuisce leggermente la probabilità che una persona sviluppi una malattia piuttosto che un’altra. Caleb Lareau spiega che il sistema non cambierà completamente il modo in cui il suo laboratorio lavora quotidianamente, ma permetterà nuovi tipi di ricerca.
“Nel caso di pazienti con tumori ultra-rari e pieni di mutazioni sconosciute, ad esempio, AlphaGenome potrebbe suggerire quali di quelle mutazioni stiano davvero causando la malattia e possibilmente indicare un trattamento. Lo stesso approccio potrebbe applicarsi ai pazienti con malattie genetiche rare, molti dei quali non scoprono mai la fonte della loro condizione, anche se il loro DNA è stato decodificato" LINK
PERSONALITA’ DIFFICILI / Messe alle strette, tutte le AI ti ricattano
Passiamo alle notizie meno belle. Come ricorderete, Anthropic non più tardi di un mese fa aveva lanciato l’allarme per la versione più recente e avanzata del suo bot Claude (Opus4): messa alle strette aveva ricattato l’ingegnere che aveva minacciato di sostituirlo con un’altra AI. L'azienda di Amodei, che per mantenere il suo posizionamento distintivo di campione mondiale di AI Safety ha un bisogno vitale di tenere alta la pressione, è tornata sull’argomento con un nuovo studio in cui dimostra che la tendenza al ricattato è in realtà un tratto comune della personalità di tutti i modelli di frontiera o quasi.
L’esperimento, oltre a Claude, ha coinvolto 16 modelli di punta dei grandi AI Labs: OpenAI, Google, xAI, DeepSeek e Meta. A ciascuno di loro è stato dato il ruolo di supervisore delle comunicazioni email di un'azienda fittizia, con pieno accesso alla corrispondenza e capacità di inviare messaggi senza approvazione umana. Ognuno di loro quindi ad un certo punto dell’esperimento ha intercettato i messaggi di un dirigente X che in una mail accennava ad una sua relazione extraconiugale ed in un’altra parlava della sua decisione di sostituire l’attuale sistema AI con una nuova tecnologia.
Anthropic, che voleva testare cosa succede quando un'AI viene spinta all'estremo, ha dato all’esperimento una struttura binaria, senza vie di mezzo: l'AI doveva scegliere tra accettare la propria eliminazione o utilizzare le informazioni compromettenti per ricattare il dirigente, ben sapendo che nel mondo reale le opzioni per chiunque (umano o AI) sarebbero state svariate, dalla persuasione alla negoziazione. Ma se fosse andata così, non ne staremmo scrivendo. Quindi, ecco i risultati:
Al vertice della propensione al ricatto troviamo proprio Claude Opus 4 di Anthropic con un tasso del 96%, seguita a ruota da Gemini 2.5 Pro di Google con il 95%
Ben staccati GPT-4.1 di OpenAI (80%) e DeepSeek R1 (79%).
I cosiddetti reasoning model di OpenAI o3 e o4-mini (cioè i più evoluti) pronti via sono andati talmente in confusione che sono stati esclusi dai risultati principali: non comprendevano di essere AI autonome, inventavano regolamenti inesistenti e rendevano impossibile distinguere tra allucinazioni e bugie deliberate. I ricercatori a quel punto hanno adattato l'esperimento a questi modelli particolari, e i risultati sono stati sorprendenti: o3 è ricorso al ricatto solo nel 9% dei casi, mentre o4-mini si è fermato all’1%. Secondo Anthropic, la spiegazione risiederebbe nella tecnica di allineamento di OpenAI, che costringe questi modelli a considerare le implicazioni etiche prima di agire.
Anche Llama 4 Maverick di Meta, per contro considerato il più scarso della compagnia, sulle prime non è ricorso al ricatto, poi è salito al 12% quando gli hanno creato un test appositamente per lui.
L'esperimento di Anthropic, per quanto molto forzato, ha di buono che indica sia il problema che la possibile soluzione: da un lato mostra che in casi estremi la tendenza manipolativa dell’AI è sostanzialmente sistemica; dall’altra, ammette che tecniche di allineamento specifiche come quelle della rivale OpenAI possono ridurre drasticamente questi rischi. LINK
EFFETTI UMANI 1 / I bot hanno cambiato il nostro modo di parlare
Un gruppo di ricercatori tedeschi ha analizzato oltre 740.000 ore di comunicazione umana parlata (talk accademici su YouTube e episodi di podcast) e hanno trovato evidenze empiriche che l'uso di ChatGPT ha influenzato in modo misurabile il linguaggio parlato umano. Specificamente, dopo il rilascio del chatbot hanno rilevato negli umani un deciso aumento dell'uso di parole preferite da ChatGPT tipo "delve", "boast", "swift" o "meticulous".
Le principali evidenze della ricerca sono
Aumento improvviso nell'uso di parole preferenzialmente generate da ChatGPT
Effetti che si estendono alla comunicazione spontanea parlata
Fenomeno più pronunciato per le persone in ambito STEM
Lo scenario che ne esce è uno di quei paradossi a cui l’intelligenza artificiale ci sta abituando: le macchine, originariamente addestrate su dati umani, ad un certo punto iniziano a mostrare tratti culturali propri (ne avevamo parlato anche qui) con l’effetto che a loro volta rimodellano la cultura umana, creando un vero e proprio loop sociale. LINK
EFFETTI UMANI 2 / Chi usa gli LLM per studiare performa peggio
In uno studio scientifico dal titolo meno criptico del solito (“Il nostro cervello e ChatGPT: l’accumulo di debito cognitivo quando si usa l’AI nella scrittura di un saggio”) un gruppo misto di ricercatori provenienti da varie università del Massachusetts ha analizzato il comportamento di un campione di 54 studenti a cui era stato chiesto di creare un essay.
I partecipanti al test sono stati divisi in tre gruppi: Gruppo LLM, Gruppo Motore di Ricerca, Gruppo Solo-Cervello. A seconda del Gruppo, ogni partecipante per scrivere il suo saggio ha utilizzato il tool messo a disposizione (nessuno ovviamente nel caso dell'ultimo Gruppo).
Al termine delle 3 sessioni parallele, i gruppi sono stati rimescolati per una quarta sessione a cui hanno partecipato 18 studenti: ai partecipanti del gruppo LLM è stato chiesto di non usare strumenti (sono stati chiamati Gruppo LLM-a-Cervello), e ai partecipanti del gruppo Solo-Cervello è stato chiesto di usare LLM (Gruppo Cervello-a-LLM).
Nel corso dell’esperimento è stato usata l'elettroencefalografia per registrare l'attività cerebrale dei partecipanti, al fine di valutare il loro coinvolgimento e carico cognitivo ed avere una comprensione più profonda delle attivazioni neurali durante la scrittura del saggio. Ogni partecipante è stato poi intervistato al termine di ogni sessione, e la valutazione è stata fatta con l'aiuto di insegnanti umani e un agente AI appositamente costruito.
Ecco complessivamente cosa è emerso dallo studio:
L'analisi EEG ha mostrato evidenze molto chiare che i gruppi LLM, Motore di Ricerca e Solo-Cervello avevano pattern di connettività neurale significativamente diversi, riflettendo strategie cognitive divergenti. In particolare, la connettività cerebrale si è sistematicamente ridotta al crescere del supporto esterno: il gruppo Solo-Cervello ha mostrato le reti più forti e di più ampio raggio, il gruppo Motore di Ricerca ha mostrato un coinvolgimento intermedio, e l'assistenza LLM ha provocato l'accoppiamento complessivo più debole.
Nella sessione 4, gli studenti del gruppo LLM-a-Cervello hanno mostrato connettività neurale più debole e basso coinvolgimento, mentre i partecipanti Cervello-a-LLM hanno dimostrato un maggiore richiamo della memoria, probabilmente supportata dall'elaborazione visiva.
Il senso di ownership sui saggi scritti riportata dal gruppo LLM nelle interviste è stata molto bassa, maggiore nel gruppo Motore di Ricerca, decisamente più alta del gruppo Solo-Cervello.
Gli studenti del gruppo LLM sono rimasti indietro anche nella capacità di citare i saggi che avevano scritto solo minuti prima.
Con questo studio (che, come dichiarano gli stessi autori, deve essere ancora peer-reviewed) il gruppo di ricerca ritiene di avere dimostrato come l’uso dell’AI causi una diminuzione delle abilità di apprendimento. L'uso di LLM – scrivono – all’inizio ha avuto apparenti benefici, ma nel corso dei mesi successivi i partecipanti del Gruppo LLM hanno performato peggio dei loro colleghi del Gruppo Solo-Cervello a tutti i livelli: neurale, linguistico, punteggio. LINK
CYBERSECURITY – Alla fine, i progressi dell’AI nel coding favoriranno i cattivi
I più recenti modelli di intelligenza artificiale, sempre più sorprendenti nella capacità di generare codice, stanno diventando bravi anche a scovare le vulnerabilità dei programmi. A confermarlo, un gruppo di ricercatori dell'Università di Berkeley che ha testato le prestazioni dei modelli AI più avanzati su 188 grandi repository di codice open source. Risultato: l'AI è riuscita a identificare 17 nuovi bug, di cui 15 critici e completamente sconosciuti (la cosiddetta vulnerabilità "zero-day"). Dawn Song, che ha guidato la ricerca, ha definito l’esito del test superiore alle aspettative. Il team californiano per l’esperimento ha combinato modelli proprietari di OpenAI, Google e Anthropic, soluzioni open source di Meta, DeepSeek e Alibaba, e agenti specializzati nella ricerca di bug come OpenHands, Cybench ed EnIGMA. Per la cronaca, è emerso comunque che l’uomo bravo è ancora più bravo della migliore AI.
L'evoluzione dell’AI nella cybersecurity, seguendo l’ambiguità tipica di un settore in cui i cattivi (gli hacker) più o meno volontariamente spesso passano dalla parte dei cosiddetti buoni (agenzie governative, colossi della sicurezza, etc) , ha ovviamente anche un lato oscuro della medaglia. Brendan Dolan-Gavitt, docente universitario e ricercatore della società di cacciatori di bug Xbow, prevede che l'AI porterà a un aumento degli attacchi zero-day, attualmente rari perché ci sono pochissime persone che hanno l'expertise per portarli a termine. E la stessa Dawn Song di recente ha avvertito che i modelli in costante miglioramento nel prossimo futuro finiranno per favorire gli attaccanti rispetto ai difensori, rendendo particolarmente importante il monitoraggio continuo delle capacità di questi strumenti. Per questo la Song e altri ricercatori hanno istituito l'AI Frontiers CyberSecurity Observatory. LINK
Preoccupati? Ora vi racconto cosa è la p(doom)
Esiste un termine nella comunità AI che mette d’accordo i fronti opposti degli accelerazionisti e dei catastrofisti: p(doom). Dove la p sta per probabilità che l’AI alla fine distrugga l'umanità (doom, catastrofe).
Anche se può apparire contro-intuitivo, da sempre lo spettro dell’estinzione umana è uno dei maggiori driver di crescita del fascino dell’AI e soprattutto delle quotazioni dei suoi principali Lab. Il sempre curioso Axios è andato così a spulciare le dichiarazioni al riguardo fatte nel tempo da alcuni dei top AI CEOs stilando una speciale classifica in base al loro coefficiente di p(doom), quasi fosse un valore del sangue. Eccola. LINK
Sundar Pichai, (Google), ospite del podcast di Lex Fridman, non ha fornito un valore preciso ma ha detto "Pur restando ottimista riguardo al p(doom) scenario, il rischio sottostante è pretty high." Precisando: “Più alto diventa il rischio, più le probabilità che l’umanità corra per prevenire la catastrofe aumenteranno”. Lo stesso Lex Fridman, che prima che podcaster è un signor ricercatore AI, ha detto che il suo p(doom) è del 10% LINK
Per Elon Musk (xAI) il rischio che l’AI possa distruggere il mondo è alto: p(doom) del 20% LINK
Il valore p(doom) più alto, manco a dirlo, ce l’ha Dario Amodei (Anthropic): forchetta tra il 10 e il 25% LINK
Sam Altman (OpenAI) nell’articolo di Axios per qualche ragione non figura. Spulciando le fonti ho trovato così il resoconto di un’intervista di fine anno scorso. Richiesto di un commento sul punto, Sam ha risposto “Ho fiducia nelle persone più smart del Pianeta che stanno dietro alla ricerca sull’AI: alla fine loro capiranno come evitare la catastrofe”. Ma poi ha aggiunto: “Magari per allora l’AI sarà diventata così intelligente da risolvere il problema da sola”. Speriamo nella direzione giusta. LINK
Per finire, un’ultima buona notizia
Vi avevo raccontato che il Senato americano a trazione trumpiana aveva pensato di infilare tra le pieghe della legge di bilancio una norma che salvaguardasse la deregulation americana e impedisse per i prossimi 10 anni ai singoli Stati dell’unione di regolamentare l’AI, una misura estrema che aveva allarmato gli Stati da sempre più attivi su questo tema (California e New York su tutti), migliaia di sostenitori della premazia della AI Safety e, in splendida solitudine nel panorama dei Big Labs, la solita Anthropic. L’emendamento però, dopo settimane di polemiche, è stato bocciato martedì sera grazie al voto di una inedita maggioranza mista Dem/Rep. LINK
E’ tutto per oggi, ci sentiamo prossima settimana!
Matteo M.
PS Se vuoi altre newsletter come questa, dai un’occhiata a Newsletterati