I modelli AI non sanno fare il lavoro: ITBench-AA lo dimostra
Arrivano i primi test seri per capire se l'intelligenza artificiale è davvero pronta a lavorare nei reparti IT delle aziende. Spoiler: non ancora. Le migliori IA del momento si fermano sotto il 50% di successo.

Immagina di dire all'IA di un'azienda tech: "Vai tu e gestisci il mio server". Bene, non fare quel esperimento. Arriva ITBench-AA, il primo benchmark che testa davvero cosa sanno fare i modelli AI "agentici" (cioè quelli che dovrebbero agire autonomamente) quando devono affrontare compiti reali del mondo IT aziendale. Il test è nato da una collaborazione tra IBM Research e Artificial Analysis, quindi non è esattamente uno scherzo da rubrica gossip.
Il risultato? Anche i migliori modelli AI attuali — stiamo parlando di roba come GPT-4, Claude e compagnia — non superano il 50%. È come se dicessero a questi giganti digitali: "Ascolta, sei bellissimo nei tuoi benchmark, ma quando devi davvero risolvere un problema, mi pianti a metà strada". In certi compiti più complessi, il risultato è ancora peggio.
Quelli che testano sono compiti veri: configurare ambienti, risolvere errori di rete, gestire permessi, integrare sistemi. Non è fantascienza, è quello che gli IT manager chiedono ai loro team ogni giorno. Per capire il livello di difficoltà, basta pensare che un umano esperto d'IT per questi compiti avrebbe una percentuale di successo molto più alta. L'IA insomma è ancora lontana dall'essere un collega affidabile.
Perché importa? Perché negli ultimi anni c'è stato un hype senza fine su IA e automazione aziendale. Tutti i vendor gridavano "l'IA rivoluzionerà i vostri processi". Bene, ITBench-AA è il primo benchmark che dice: "Calma, vediamo davvero di che pasta siamo fatti". Non è uno smacco all'IA, è solo una doccia fredda — utile, per una volta.
Da un lato, il test è cattivo notizie per chi ha già investito miliardi in soluzioni "intelligenti". Dall'altro è l'occasione per capire dove migliorare. I ricercatori hanno identificato le debolezze: l'IA fatica soprattutto quando i compiti sono sequenziali, quando richiede memoria (ricordarsi quello che ha fatto cinque step prima), e quando deve correggere i propri errori — esattamente quello che farebbe un umano.
In breve: non comprare ancora quel robottino digitale pensando che farà tutta la tua magia IT. Ma almeno ora sappiamo di preciso dove siamo e dove arriviamo. ITBench-AA non è una cattiva notizia per l'IA, è una notizia onesta.
Cosa significa per te
Se lavori in un'azienda e qualcuno ti ha promesso che l'IA risolverebbe i tuoi problemi IT: aspetta. Non è ancora il momento. Se ami il tuo lavoro IT e ti preoccupi di venir rimpiazzato da una macchina: dormi tranquillo, almeno per ora.