I recenti sviluppi nel campo dell’intelligenza artificiale mostrano un panorama complesso, in cui i limiti attuali dei sistemi tecnologici si scontrano con le continue innovazioni tecniche e le nuove sfide sociali. Da un lato, i test di valutazione più recenti evidenziano le profonde difficoltà delle macchine nell’affrontare situazioni inedite attraverso il ragionamento, ottenendo risultati nettamente inferiori a quelli umani. Dall’altro, le piattaforme social corrono ai ripari per arginare la proliferazione dei programmi automatici. Nel frattempo, la ricerca avanza con nuovi algoritmi di compressione dei dati e ingenti investimenti finanziari, mentre le istituzioni iniziano a promuovere corsi di alfabetizzazione digitale di base accessibili a tutti i lavoratori.
Il banco di prova per misurare l’intelligenza delle macchine
Zero virgola qualcosa è il risultato che i più potenti sistemi di intelligenza artificiale hanno ottenuto nel nuovo banco di prova pensato per misurare quanto siano (davvero) vicini all’intelligenza umana. Ma cosa è accaduto? Ieri la ARC Prize Foundation ha presentato ARC-AGI-3, la terza versione del suo benchmark (termine tecnico per indicare un test standard di valutazione), e i risultati sono stati una doccia fredda per chi dava ormai per imminente l’arrivo dell’intelligenza artificiale generale (detta anche Agi). Il test è stato ideato da François Chollet, ricercatore franco-americano che da anni sostiene come l’industria misuri l’intelligenza delle macchine in modo errato, valutando per lo più la capacità di memorizzare enormi quantità di dati anziché quella di affrontare situazioni inedite. Le prime due versioni di ARC-AGI proponevano dei semplici puzzle statici; quindi, un sistema Ai doveva osservare uno schema e completarne uno nuovo. Le aziende più importanti avevano investito milioni per allenare i propri modelli su quei test, così i punteggi sono cresciuti dal 3 al 50 per cento in meno di un anno. Ma adesso con la terza versione cosa succederà? Adesso gli agenti di intelligenza artificiale si trovano immersi in ambienti interattivi simili a videogiochi, senza istruzioni, senza regole scritte, senza obiettivi espliciti. Quindi gli agenti devono esplorare, capire da soli cosa fare, elaborare strategie e adattarsi man mano che procedono, esattamente come farebbe un bambino di fronte a un gioco nuovo: gli esseri umani, in genere, risolvono il 100% di queste sfide al primo tentativo, invece i migliori modelli di intelligenza artificiale, non arrivano nemmeno all’1%. Gemini Pro di Google ha ottenuto lo 0,37%, GPT 5.4 High di OpenAI lo 0,26%, Opus 4.6 di Anthropic lo 0,25% e Grok-4.20 di xAI è rimasto fermo allo 0%. La sfida prevede un premio da un milione di dollari per chi arriverà primo, e il cofondatore Mike Knoop ha dichiarato che i grandi laboratori stanno dedicando molta più attenzione a questa terza versione rispetto alle precedenti. Il dato più sorprendente, comunque, sarà la rapidità con cui questi punteggi saliranno nei prossimi mesi…ma questo incremento indicherà un autentico progresso nel ragionamento o semplicemente una forma più costosa di forza computazionale? È proprio quello che Chollet vuole scoprire con il test che ha progettato.
La gestione degli account sui social network
Sui Social Network abbiamo il problema opposto: le macchine che si fingono umane funzionano fin troppo bene. Infatti, Steve Huffman, fondatore e amministratore delegato di Reddit, ieri ha annunciato un piano per distinguere le persone dai programmi automatici che infestano il sito. I cosiddetti bot che operano in modo lecito saranno contrassegnati con un’etichetta “[App]”, mentre gli account sospetti saranno invitati a dimostrare di essere gestiti da un essere umano. Per la verifica Reddit utilizzerà sistemi come le passkey o lo scanner World ID di Sam Altman, ricorrendo ai documenti d’identità solo dove la legge lo imponga. L’intento, ha spiegato Huffman, è accertarsi che dietro un account ci sia una persona reale. I contenuti scritti con l’aiuto dell’intelligenza artificiale non saranno vietati — Huffman li ha definiti «annoying» (fastidiosi) — e le singole comunità potranno stabilire le proprie regole, quindi se accettarli o meno. Secondo i dati di Cloudflare il traffico generato dai bot è destinato a superare quello umano entro il 2027 e il caso di Digg, storica piattaforma sociale rilanciata a inizio anno e costretta a chiudere dopo appena due mesi perché travolta da programmi automatici, dimostra che stiamo parlando di qualcosa che già accade. La cosiddetta Dead Internet Theory (la teoria della morte di Internet), secondo cui gran parte dei contenuti online sarebbe già generata da macchine, trova sempre più conferme.
La compressione della memoria operativa dei modelli linguistici
Sul fronte della ricerca, Google ha presentato TurboQuant, un algoritmo che promette di comprimere la memoria operativa dei modelli linguistici di oltre sei volte senza alcuna perdita di accuratezza e senza bisogno di riaddestrare i sistemi. Quando si conversa con un modello di intelligenza artificiale, questo conserva un registro dell’intero dialogo in quella che i tecnici chiamano KV cache (una sorta di memoria a breve termine della conversazione). Man mano che il dialogo si allunga, questa memoria cresce, rallenta le risposte e fa lievitare i costi. TurboQuant riduce questa memoria a soli 3 bit (l’unità minima di informazione digitale) per ogni valore, rispetto ai 16 standard, e sui chip Nvidia H100 ha mostrato un’accelerazione fino a otto volte nella velocità di elaborazione. L’articolo scientifico sarà presentato alla conferenza ICLR 2026 ad aprile. La reazione dei mercati finanziari è stata immediata: i titoli delle principali aziende produttrici di memorie per computer, tra cui Micron e Western Digital, hanno perso tra il 3 e il 5 per cento, segno che Wall Street ha iniziato a prezzare un futuro in cui software più intelligenti potrebbero ridurre la domanda di componenti hardware. Diversi analisti, tuttavia, hanno invitato alla cautela, ricordando che algoritmi di compressione esistono da anni senza aver mai stravolto i volumi di acquisto dell’industria, e che TurboQuant non è ancora stato implementato su larga scala nei sistemi di produzione.
I nuovi finanziamenti nel settore tecnologico
Tra le altre notizie della giornata, segnaliamo che OpenAI ha raccolto altri 10 miliardi di dollari di finanziamenti, portando il totale della sua raccolta in corso a oltre 120 miliardi, una cifra che supera ampiamente l’obiettivo iniziale di 100 miliardi e che potrebbe rappresentare l’ultimo round privato prima di una possibile quotazione in Borsa. Sierra, la società fondata dall’ex amministratore delegato di Salesforce Bret Taylor, ha presentato Ghostwriter, un agente di intelligenza artificiale capace di costruire altri agenti: basta descrivere in linguaggio naturale il servizio clienti desiderato e il sistema lo realizza, funzionante su chat, telefono e in oltre trenta lingue. Google ha inoltre aggiornato il suo modello di intelligenza artificiale musicale con Lyria 3 Pro, ora in grado di generare brani completi della durata di tre minuti, con introduzione, strofe e ritornelli, disponibile su Gemini, Vertex AI e Google Vids.
L’iniziativa di alfabetizzazione digitale per i lavoratori
Infine, un’iniziativa che esce dall’ambito strettamente tech: il Dipartimento del Lavoro degli Stati Uniti ha lanciato «Make America AI-Ready» (Rendere l’America pronta per l’intelligenza artificiale), un corso gratuito di alfabetizzazione sull’intelligenza artificiale della durata di sette giorni, erogato interamente tramite messaggi di testo sul telefono, pensato per i lavoratori che non hanno familiarità con queste tecnologie e non dispongono necessariamente di un computer o di una connessione stabile. Dieci minuti al giorno per una settimana, accessibile anche da un semplice telefono a conchiglia: un piccolo segno che la questione dell’alfabetizzazione digitale non è più una questione da convegno per diventare una preoccupazione concreta delle istituzioni.













