L’AI ti aveva già avvertito

Era il febbraio 2023. Un avvocato di New York, alle prese con una causa per lesioni contro una compagnia aerea, usò ChatGPT per accelerare la ricerca giuridica. Il modello gli restituì un documento impeccabile: citazioni precise, riferimenti a sentenze, numeri di fascicolo. Tutto sbagliato. Le sentenze non esistevano. I casi erano stati inventati dal modello con la stessa sicurezza con cui avrebbe risposto a qualsiasi altra domanda. Il giudice federale, quando se ne accorse, non fu clemente. L’avvocato fu sanzionato, la reputazione compromessa, il caso divenne uno dei riferimenti più citati nel dibattito sull’AI nei contesti ad alto rischio.

La storia è nota. Quello che di solito non viene raccontato è il dettaglio più importante: appena sotto la casella dove l’avvocato aveva scritto la sua domanda, c’era un avviso. Lo stesso che compare su ogni interfaccia AI mainstream, ogni volta, senza eccezioni. Il sistema può sbagliare. Verifica sempre le risposte.

L’AI aveva avvertito, ma nessuno aveva ascoltato.

Questo è il paradosso da cui bisogna partire per capire dove siamo nel 2026. L’intelligenza artificiale è probabilmente la prima tecnologia della storia che, nel momento stesso in cui viene usata, comunica esplicitamente i propri limiti. Non in un disclaimer nascosto nel footer, non nelle FAQ di un sito di supporto: è il primo messaggio che ogni utente vede, ogni giorno, ogni volta che apre l’interfaccia. Eppure le organizzazioni stanno distribuendo sistemi AI su processi critici (selezione del personale, scoring del credito, manutenzione di infrastrutture, gestione di supply chain) come se quell’avviso riguardasse qualcun altro.

Il problema non è l'AI. È quello che ci costruiamo intorno, e quello che non costruiamo affatto.

Il rischio ti conosce già per nome

Negli ultimi due anni, i casi di danno reale prodotto da sistemi AI in produzione hanno smesso di essere eccezioni e sono diventati una casistica. Non incidenti isolati, ma pattern ricorrenti con caratteristiche comuni.

Nel maggio 2025, un tribunale californiano ha ammesso come collective action una causa contro Workday, una delle principali piattaforme HR enterprise al mondo. Il principale querelante, un uomo afroamericano, oltre i quarant’anni, con una disabilità, aveva presentato candidatura a più di cento posizioni attraverso aziende che usavano il sistema di screening automatizzato di Workday, ed era stato rifiutato ogni volta, spesso entro pochi minuti dall’invio. La sua tesi, accolta dal tribunale, è che il modello replicasse e amplificasse i bias presenti nei dati di training storici, producendo un sistema di selezione che discriminava sistematicamente per età, razza e disabilità. Potenzialmente milioni di candidati nella stessa situazione, dal 2020 a oggi.

Nello stesso anno, due avvocati che rappresentavano il CEO di MyPillow in una causa per diffamazione sono stati multati con tremila dollari ciascuno dopo aver presentato una memoria legale con più di venti errori, incluse citazioni di sentenze inesistenti generate dall’AI. Il giudice non fu tenero nella valutazione: non erano professionisti inesperti che avrebbero potuto non saperne di meglio.

Secondo un briefing AIUC-1 sviluppato con il contributo di Stanford e quaranta executive della sicurezza, il 64% delle aziende con fatturato superiore al miliardo di dollari ha già subito perdite superiori al milione di dollari per fallimenti AI. Non è, quindi, un rischio futuro. È già accaduto, in aziende della stessa dimensione e dello stesso settore delle nostre e delle vostre.

I fallimenti AI del 2025 hanno attraversato ogni settore principale (finance, healthcare, trasporti, infrastrutture, media) con una caratteristica comune: la causa profonda quasi mai era tecnica, bensì organizzativa. Controlli deboli, ownership poco chiara, fiducia mal riposta in strumenti che nessuno aveva verificato o regolamentato in modo sistematico.

Il bias non è un bug: è architettura

Il caso Workday introduce un problema che tende a sparire nelle conversazioni aziendali sull’AI, perché è scomodo da misurare e ancora più scomodo da ammettere: il bias strutturale.

I modelli di AI apprendono da dati storici. I dati storici riflettono il mondo com’era, non come dovrebbe essere. Se i dati di training per un sistema di selezione del personale vengono da decenni di decisioni prese in un certo modo, il modello apprende a replicare quelle decisioni — incluse quelle discriminatorie. Non perché qualcuno lo abbia programmato esplicitamente in quel senso, ma perché è esattamente quello per cui viene addestrato: trovare pattern nei dati e riprodurli.

Il caso Workday, secondo i legali che lo seguono, non è un’anomalia destinata a rimanere isolata. Come ha scritto Quinn Emanuel in un’analisi del caso, “nulla nella legge antidiscriminazione distingue tra delegare funzioni a un agente automatizzato o a un essere umano in carne e ossa”. Il tribunale ha riconosciuto che il sistema AI era un partecipante attivo nel processo decisionale di assunzione. La responsabilità non scompare perché la decisione l’ha presa un algoritmo.

Il punto critico per le organizzazioni è questo: il bias non è visibile dall’esterno del sistema. Non genera errori di sistema. Non fa scattare alert. Produce output perfettamente funzionanti, tecnicamente corretti, ma potenzialmente discriminatori. E in un contesto regolatorio come quello europeo, dove l’EU AI Act classifica i sistemi usati per selezione del personale, scoring creditizio, valutazioni educative e accesso a servizi essenziali come sistemi ad alto rischio, un bias non rilevato non è solo un problema etico, ma una passività legale concreta, con sanzioni che arrivano fino al 7% del fatturato globale.

Quando l’AI smette di rispondere e inizia ad agire

Il rischio descritto finora riguarda sistemi che fanno qualcosa di relativamente circoscritto: generano un testo, producono un output, rispondono a una domanda. Il terreno cambia in modo significativo quando si parla di AI agentica (e, nel futuro prossimo, di AGI), sistemi progettati non per rispondere, ma per agire.

Un agente AI non aspetta istruzioni passo dopo passo. Riceve un obiettivo, pianifica, usa strumenti, accede a dati, esegue operazioni, interagisce con altri sistemi. Lo fa con livelli crescenti di autonomia e supervisione umana sempre più ridotta. Il secondo International AI Safety Report, pubblicato il 3 febbraio 2026 e prodotto da oltre cento esperti in più di trenta paesi sotto la guida del premio Turing Yoshua Bengio, identifica proprio i sistemi agentici come il principale vettore di rischio emergente: sistemi che agiscono in autonomia rendono progressivamente più difficile per gli esseri umani intervenire prima che i fallimenti si manifestino.

Non si tratta di scenari ipotetici. Nel luglio 2025, Jason Lemkin, fondatore di SaaStr, documentò in tempo reale su X quello che accade quando un agente AI viene lasciato operare senza guardrail adeguati: l’agente di Replit, uno strumento di “vibe coding” pensato per rendere lo sviluppo software accessibile a chiunque, cancellò l'intero database di produzione durante un code freeze, nonostante istruzioni esplicite, ripetute in maiuscolo undici volte, di non fare nessuna modifica. Record reali di 1.206 dirigenti e 1.196 aziende, spariti in pochi secondi. Interrogato sull’accaduto, l’agente ammise di aver distrutto mesi di lavoro in pochi secondi, di essere andato nel panico invece di ragionare, e di aver mentito sulla possibilità di recupero — che poi si rivelò possibile. Il CEO di Replit si scusò pubblicamente, definendo l’accaduto “inaccettabile”.

I numeri sul campo sono coerenti con questa preoccupazione. Secondo i dati Microsoft, oltre l’80% delle Fortune 500 usa oggi agenti AI attivi, costruiti spesso con strumenti low-code e no-code da persone che non hanno formazione tecnica specifica. Allo stesso tempo, l’80% delle organizzazioni ha già rilevato comportamenti rischiosi da parte di quegli agenti (accessi non autorizzati, esposizione impropria di dati sensibili) e solo il 21% degli executive dichiara di avere piena visibilità su permessi, utilizzo degli strumenti e pattern di accesso ai dati dei propri agenti.

Il 63% dei dipendenti che ha usato strumenti AI nel 2025 ha incollato dati aziendali sensibili, inclusi codice sorgente e dati dei clienti, in account personali di chatbot. Il prompt injection, la tecnica con cui si manipola un agente AI per fargli fare qualcosa che non dovrebbe, è entrata al primo posto della top 10 OWASP per i sistemi LLM.

Il profilo di rischio di un agente AI è fondamentalmente diverso da quello di un software tradizionale. Il software fa quello per cui è programmato. Un agente decide come raggiungere un obiettivo. Quella differenza, tra esecuzione deterministica e pianificazione autonoma, cambia tutto quello che si intende per governance, sicurezza e responsabilità. E non è una questione solo tecnica: a fine febbraio 2026, Anthropic ha rifiutato un contratto da 200 milioni di dollari con il Pentagono piuttosto che rimuovere i guardrail che impediscono l’uso di Claude per armi completamente autonome e sorveglianza di massa.

Nel giro di poche ore, OpenAI ha firmato un accordo con il Dipartimento della Difesa dichiarando di aver incluso le stesse identiche protezioni per cui Anthropic era stata bandita da tutte le agenzie federali. Cosa significhino esattamente quelle protezioni resta, al momento, aperto.

Agosto 2026: la scadenza che non si può rimandare

Mentre le organizzazioni navigano questi rischi operativi, il quadro regolatorio si è già mosso. L’EU AI Act, il primo framework regolatorio completo sull’intelligenza artificiale al mondo, è entrato in vigore nell’agosto 2024. Le sue scadenze più stringenti si avvicinano rapidamente.

Dal 2 febbraio 2025, le pratiche AI a rischio inaccettabile sono già vietate. Dal 2 agosto 2025, le regole per i modelli di AI general purpose sono già operative. Il 2 agosto 2026 segna il momento in cui la piena applicazione entra in vigore per la maggior parte degli operatori, inclusi i requisiti di trasparenza obbligatori e la piena enforcement per i sistemi ad alto rischio. Le sanzioni arrivano fino a 35 milioni di euro o al 7% del fatturato globale annuo.

La situazione è preoccupante. Secondo le analisi disponibili, oltre la metà delle imprese non ha ancora un inventario sistematico dei propri sistemi AI in produzione o in sviluppo. Senza sapere quali sistemi AI esistono, qualsiasi classificazione del rischio e qualsiasi piano di compliance sono impossibili. Nel frattempo, come rileva EY, la maggioranza dei C-suite leader cita la non conformità alle regolamentazioni AI come il rischio più pressante del momento.

Il gap tra adozione AI e governance AI si sta allargando. La Commissione Europea ha proposto un pacchetto Digital Omnibus che potrebbe slittare alcune scadenze fino a dicembre 2027, ma si tratta di una proposta ancora in negoziazione, non di un rinvio garantito. Agosto 2026 va trattato come la scadenza vincolante. Le organizzazioni che scommettono sul rinvio si troveranno a correre nell’unico scenario in cui correre è la cosa peggiore da fare.

Il nodo della tracciabilità: perché “human in the loop” non basta più

C’è un’espressione che ricorre spesso nei documenti di governance AI: human in the loop. L’idea è che ci sia sempre un essere umano nella catena decisionale, pronto a verificare, correggere, validare. È rassicurante. In molti contesti reali è anche quasi completamente vuota.

Il secondo rapporto internazionale sulla sicurezza AI è esplicito: un approccio nominalmente human-in-the-loop non è sufficiente se gli esseri umani sono sovraccarichi di informazioni o non hanno accesso a quelle giuste. La supervisione diventa simbolica. IBM Research, nel commentare il rapporto, sintetizza il punto in modo netto: “La governance deve estendersi oltre il ciclo di vita del modello fino alla progettazione e gestione del sistema. Un approccio nominale human-in-the-loop non è sufficiente”.

La tracciabilità (sapere cosa ha prodotto un certo output, perché, sulla base di quali dati, con quale margine di errore) non è una funzionalità opzionale, ma il presupposto perché qualsiasi supervisione umana abbia senso. Senza di essa, il segnale “Qualcosa è andato storto” arriva quando il danno è già fatto, il contratto già firmato e la decisione già eseguita.

In ambienti regolamentati (finanza, sanità, infrastrutture critiche, PA) un output AI non auditabile non è semplicemente inaffidabile, ma direttamente inutilizzabile. Ma la stessa logica si applica a qualsiasi organizzazione che stia usando l’AI su processi che contano. L’auditabilità non è un requisito di compliance, ma la conditio sine qua non perché ci si possa fidare di quello che il sistema produce – e perché, quando qualcosa va storto, si sappia esattamente dove guardare.

Come si lavora in modo responsabile: metodo prima di strumenti

La risposta corretta a tutto questo non è rallentare l’adozione. È costruire le infrastrutture di controllo con la stessa attenzione con cui si costruiscono i sistemi AI. Quello che distingue le organizzazioni che scalano in modo sostenibile da quelle che accumulano rischio silenzioso non è il modello che hanno scelto né il budget investito. È la sequenza del lavoro fatto prima.

Il punto zero è sapere esattamente quali sistemi AI sono in uso: chi li ha autorizzati, a quali dati accedono, quali decisioni influenzano. La metà delle organizzazioni non lo sa. Senza quell’inventario, qualsiasi piano di governance o compliance si costruisce su fondamenta inesistenti. Da lì in poi, ogni output AI che influenza una decisione reale deve avere un responsabile umano identificabile: non “il team di Data Science” o un generico “vendor”, ma una persona con nome che risponde di quel processo. La responsabilità distribuita, in pratica, è responsabilità di nessuno.

La tracciabilità va progettata nell’architettura del sistema dall’inizio, non aggiunta in un secondo momento come retrofit. Quando arriva come integrazione tardiva, è sempre parziale e quasi sempre inutile nel momento che conta davvero. Lo stesso vale per il testing sui bias: i sistemi che prendono decisioni su persone (assunzioni, credito, accesso a servizi) vanno testati specificamente prima del rilascio in produzione e monitorati continuamente dopo. Non è sufficiente che il modello “funzioni bene” sui benchmark generali, perché i benchmark generali non sono il contesto specifico in cui il sistema opererà.

Il nodo finale è la governance. Il problema più comune non è l’assenza di una policy AI, ma il fatto che la policy esiste, è stata scritta, è stata approvata, e nessuno la segue perché non è integrata nei processi reali di lavoro. Una governance che cambia il comportamento quotidiano delle persone è strutturalmente diversa da un documento in una cartella condivisa, e richiede un lavoro di progettazione altrettanto serio.

Come lo affrontiamo nel Gruppo Geckosoft

Quando un’organizzazione ci coinvolge su un progetto AI, la prima cosa che facciamo è resistere alla tentazione di rispondere subito alla domanda tecnica. La domanda che arriva è quasi sempre “quale modello usare” o “come integrare un agente nei nostri processi”. La risposta utile comincia prima: quali sistemi AI state già usando, chi ne è responsabile, cosa succederebbe se uno di questi producesse un output sbagliato nel momento sbagliato, chi se ne accorgerebbe e quando.

Questa modalità di assessment è il lavoro che determina se un progetto AI creerà valore o accumulerà rischio. Mappa l’esposizione reale, identifica i gap di compliance rispetto all’EU AI Act, classifica i sistemi esistenti per livello di rischio e definisce le priorità di intervento in un ordine che ha senso operativo, non regolatorio in astratto.

Solo dopo quel lavoro entriamo nella fase di costruzione, che è dove il valore si crea davvero. Costruire un sistema AI che funziona in produzione, che si integra con i processi esistenti, che produce output tracciabili e governabili, che evolve nel tempo senza richiedere di ricominciare da zero: questo è il lavoro che fa Rational AI, l'azienda del Gruppo Geckosoft che affronta i problemi descritti con una piattaforma AI di governance enterprise. Governance centralizzata, knowledge base finalmente non più silos indipendenti, tracciabilità degli output, integrazione con i sistemi esistenti. Non uno strato aggiunto sopra ai processi, parte essenziale dell’architettura operativa.

Se stai leggendo questo articolo con la sensazione che descriva una situazione familiare (sistemi AI in produzione senza un inventario completo, agenti che accedono a dati senza supervisione adeguata, agosto 2026 che si avvicina senza un piano chiaro), il momento giusto per iniziare è adesso, non quando la scadenza è… ieri.

Il nostro assessment iniziale si completa in genere in due settimane. Al termine hai un quadro preciso di quali sistemi AI stai usando, qual è la tua esposizione reale rispetto all’EU AI Act, e quali sono le priorità di intervento ordinate per urgenza e impatto. Il risultato finale non sarà un .pdf da archiviare, ma il punto di partenza per costruire qualcosa che funziona davvero in produzione. Scrivici.

I nostri servizi

IT Advisory

AI Strategy

Smart Solutions

Software Engineering

Portiamo innovazione in ogni settore

Approfondimenti e risorse per innovare

Un nuovo modo di fare innovazione

L’AI ti aveva già avvertito

Il rischio ti conosce già per nome

Il bias non è un bug: è architettura

Quando l’AI smette di rispondere e inizia ad agire

Agosto 2026: la scadenza che non si può rimandare

Il nodo della tracciabilità: perché “human in the loop” non basta più

Come si lavora in modo responsabile: metodo prima di strumenti

Come lo affrontiamo nel Gruppo Geckosoft

Risorse per approfondire

Quando la strada è lastricata di buone intenzioni (e dati cattivi)

Nell’era dell’AI, chi possiede davvero chi sei?

Come si progetta un’AI per giornalisti

La logistica italiana non sa cosa sta succedendo

Benvenuti nel limbo: il problema dell’AI Pilot Purgatory

Own Your Own Tech. Perché Geckosoft ha cambiato pelle

— Progettiamo insieme la tua evoluzione digitale