In regalo il gioco per sfidare l'AI nel we!
E poi: la prima radiografia che svela come usiamo davvero l'AI e il ginepraio dei benckmark che misurano l'intelligenza di ChatGPT e soci
Hello humans,
io sono Matteo Montan e questo è [humans/ai] Lunch break (se volete saperne di più su questa newsletter e su di me date un’occhiata qui ). Cominciamo!
***
Visto che è venerdì e che veniamo da una settimana impegnativa, oggi pensavo di stare leggero e di non menzionare policies, catastrofi, problemi etc etc.
Cosa l’AI dice di noi
Un modo interessante per capire come sta andando la convivenza tra noi humans e l’AI è dare un’occhiata a come la usiamo. Il primo AI Lab a rendere questi dati disponibili è stato Anthropic, per ora la principale rivale di OpenAI tra i Lab indipendenti (entrambe hanno appena annunciato i nuovi modelli di punta: qui e qui); Anthropic questa settimana ha presentato il suo “Economic Index”, uno studio semestrale che traccia in modo anonimo come le persone effettivamente utilizzano il proprio chatbot Claude. In sintesi:
Lo studio ha analizzato un campione di circa un milione di conversazioni in un periodo di sette giorni, filtrato in modo da includere solo le chat che riguardano il lavoro (lo studio infatti tende a dimostrare che per ora non c’è sostituzione dell’uomo).
L’analisi mostra che l'adozione dell'AI è stata più ampia tra i lavoratori "informatici e matematici" con il 37,2% delle query inviate (Claude è molto popolare tra i programmatori, infatti). La seconda categoria è quella più creativa, chiamata Art & Media (10,3%).
Sembra che per ora l’uso di Claude tenda più al potenziamento delle capacità umane attraverso la collaborazione con l’AI (scambiarsi la palla avanti e indietro: 57%) rispetto all'automazione (delegarle completamente i compiti : 43%). Il “per ora” va evidenziato perché Anthropic diversamente da OpenAI non ha ancora spinto sul mercato consumer i cosiddetti agenti, cioè l’evoluzione dei chatbot che ora lavorano per te.
Se vi interessa lo studio completo, può essere una buona lettura per il week end, ricca di dati (vedi tabella sotto) e non ansiogena.
OK, ma quanto è intelligente l’AI?
Il modo invece per monitorare quanto sta effettivamente diventando intelligente la nuova Specie, è quello dei cosiddetti benchmarks. E’ un ginepraio mostruoso in cui per ora sarebbe meglio non addentrarsi, ne esce uno nuovo alla settimana e ognuno promette di essere quello definitivo. Però lo faccio lo stesso, con grandissima arroganza e approssimazione, consapevole che: A) non sarò certamente io a risolvere la questione di come l’uomo possa effettivamente misurare l’intelligenza della AI; B) è comunque un tema su cui i lettori di [humans/AI] devono avere almeno una infarinatura (e se vi interessa approfondire, il modo migliore è chiedere al vostro chatbot di fiducia); C) ve ne parlo oggi perché vorrei regalarvi per il we un giochino molto divertente. (Ma, come diceva il capo della tribù cannibale all’esploratore bianco, prima un po’ di… teoria 😊).
La questione può essere più o meno inquadrata così:
Cosa sono i benchmark - Sono pacchetti di test standardizzati usati per misurare le capacità dei modelli AI in specifici compiti come linguaggio, ragionamento, matematica. Funzionano come degli esami che permettono di confrontare le prestazioni dei diversi modelli su basi comuni.
I pro - Forniscono metriche oggettive e confrontabili per valutare i progressi dell'AI. Aiutano a identificare punti di forza e debolezza dei modelli, guidandone lo sviluppo. Creano standard condivisi che facilitano la ricerca e il dialogo nella comunità scientifica.
I contro - I test sono artificiali e non riflettono al 100% l'uso reale dell'AI. Mostrano bias culturali e diventano rapidamente obsoleti vista la velocità di evoluzione dell'AI. E soprattutto i modelli spesso "studiano" i benchmark, invalidando i risultati.
Ci sono al momento alternative migliori? No, ed è un problema. I benchmark, con tutti i loro limiti, restano però lo strumento più pratico che abbiamo. Si stanno sperimentando altri approcci innovativi ma nessuno ha ancora la maturità e l'accettazione necessarie per sostituire i benchmark tradizionali.
E ora il giochino per il week end
Insomma, come avete capito i benchmark sono come la prova INVALSI per gli studenti: imperfetta, ma al momento non si è trovato di meglio. E adesso, come promesso, il regalo (vi avviso, è un po’ per incistati di matematica, logica etc, ma comunque divertente per tutti.)
Allora. Qualche giorno fa mi ero intrippato con un post su X di un certo Aleksander Madry, che è un professore del MIT ora in aspettativa (lavora ad OpenAI, beato lui). Sostanzialmente Aleksander affrontava uno dei misteri più controversi dell’AI, il fatto che su operazioni matematiche basiche anche i modelli più evoluti prendono a volte dei granchi da paura. Leggendo il suo post mi sono imbattuto in una cosa che si chiama PlatinumBench , una specie di bibbia interattiva (vedi sotto) che incrocia i benchmark più accreditati con i modelli più evoluti. E’ più difficile da spiegare che da provare, ma in pratica vi fa vedere su quali test o operazioni i modelli toppano, e perché. Da giocarci per ore.
Per questa settimana è tutto, direi, [humans/AI] Lunch break vi dà appuntamento a lunedì, buon week end!
Matteo M.
PS: per colpa dell’AI Action Summit di Parigi questa prima settimana di pubblicazioni è stata una po’ lunga, così vi posso già dire che sicuramente il primo Weekly Brunch non sarà questo week end. Allevia il mio senso di colpa sapere che comunque roba da leggere e per smanettare ne avrete!