Era il febbraio 2023. Un avvocato di New York, alle prese con una causa per lesioni contro una
compagnia aerea, usò ChatGPT per accelerare la ricerca giuridica. Il modello gli restituì un
documento impeccabile: citazioni precise, riferimenti a sentenze, numeri di fascicolo.
Tutto sbagliato. Le sentenze non esistevano. I casi erano stati inventati dal modello con la stessa sicurezza
con cui avrebbe risposto a qualsiasi altra domanda. Il giudice federale, quando se ne accorse, non
fu clemente. L’avvocato fu sanzionato, la reputazione compromessa, il caso divenne uno dei
riferimenti più citati nel dibattito sull’AI nei contesti ad alto rischio.
La storia è nota. Quello che di solito non viene raccontato è il dettaglio più importante: appena
sotto la casella dove l’avvocato aveva scritto la sua domanda, c’era un avviso. Lo stesso che
compare su ogni interfaccia AI mainstream, ogni volta, senza eccezioni.
Il sistema può sbagliare. Verifica sempre le risposte.
L’AI aveva avvertito, ma nessuno aveva ascoltato.
Questo è il paradosso da cui bisogna partire per capire dove siamo nel 2026. L’intelligenza
artificiale è probabilmente la prima tecnologia della storia che, nel momento stesso in cui viene
usata, comunica esplicitamente i propri limiti. Non in un disclaimer nascosto nel footer, non
nelle FAQ di un sito di supporto: è il primo messaggio che ogni utente vede, ogni giorno, ogni
volta che apre l’interfaccia. Eppure le organizzazioni stanno distribuendo sistemi AI su processi
critici (selezione del personale, scoring del credito, manutenzione di infrastrutture, gestione di
supply chain) come se quell’avviso riguardasse qualcun altro.
Il problema non è l'AI. È quello che ci costruiamo intorno, e quello che non costruiamo affatto.
Il rischio ti conosce già per nome
Negli ultimi due anni, i casi di danno reale prodotto da sistemi AI in produzione hanno smesso di
essere eccezioni e sono diventati una casistica. Non incidenti isolati, ma pattern ricorrenti con
caratteristiche comuni.
Nel maggio 2025, un tribunale californiano ha
ammesso come collective action
una causa contro Workday, una delle principali piattaforme HR enterprise al mondo. Il principale
querelante, un uomo afroamericano, oltre i quarant’anni, con una disabilità, aveva presentato
candidatura a più di cento posizioni attraverso aziende che usavano il sistema di screening
automatizzato di Workday, ed era stato rifiutato ogni volta, spesso entro pochi minuti dall’invio.
La sua tesi, accolta dal tribunale, è che il modello replicasse e amplificasse i bias presenti nei
dati di training storici, producendo un sistema di selezione che discriminava sistematicamente per
età, razza e disabilità. Potenzialmente milioni di candidati nella stessa situazione, dal 2020 a
oggi.
Nello stesso anno,
due avvocati che rappresentavano il CEO di MyPillow
in una causa per diffamazione sono stati multati con tremila dollari ciascuno dopo aver presentato
una memoria legale con più di venti errori, incluse citazioni di sentenze inesistenti generate
dall’AI. Il giudice non fu tenero nella valutazione: non erano professionisti inesperti che
avrebbero potuto non saperne di meglio.
Secondo un briefing AIUC-1
sviluppato con il contributo di Stanford e quaranta executive della sicurezza, il 64% delle
aziende con fatturato superiore al miliardo di dollari ha già subito perdite superiori al milione
di dollari per fallimenti AI. Non è, quindi, un rischio futuro. È già accaduto, in aziende della
stessa dimensione e dello stesso settore delle nostre e delle vostre.
I fallimenti AI del 2025
hanno attraversato ogni settore principale
(finance, healthcare, trasporti, infrastrutture, media) con una caratteristica comune: la
causa profonda quasi mai era tecnica, bensì organizzativa. Controlli deboli,
ownership poco chiara, fiducia mal riposta in strumenti che nessuno aveva verificato o
regolamentato in modo sistematico.
Il bias non è un bug: è architettura
Il caso Workday introduce un problema che tende a sparire nelle conversazioni aziendali sull’AI,
perché è scomodo da misurare e ancora più scomodo da ammettere: il bias strutturale.
I modelli di AI apprendono da dati storici. I dati storici riflettono il mondo com’era, non come
dovrebbe essere. Se i dati di training per un sistema di selezione del personale vengono
da decenni di decisioni prese in un certo modo, il modello apprende a replicare quelle decisioni —
incluse quelle discriminatorie. Non perché qualcuno lo abbia programmato esplicitamente in quel
senso, ma perché è esattamente quello per cui viene addestrato: trovare pattern nei dati e
riprodurli.
Il caso Workday, secondo i legali che lo seguono, non è un’anomalia destinata a rimanere isolata.
Come ha scritto Quinn Emanuel
in un’analisi del caso, “nulla nella legge antidiscriminazione distingue tra delegare funzioni a
un agente automatizzato o a un essere umano in carne e ossa”. Il tribunale ha riconosciuto che il
sistema AI era un partecipante attivo nel processo decisionale di assunzione. La responsabilità
non scompare perché la decisione l’ha presa un algoritmo.
Il punto critico per le organizzazioni è questo: il bias non è visibile dall’esterno del sistema.
Non genera errori di sistema. Non fa scattare alert. Produce output perfettamente
funzionanti, tecnicamente corretti, ma potenzialmente discriminatori. E in un contesto regolatorio
come quello europeo, dove l’EU AI Act classifica i sistemi usati per selezione del personale,
scoring creditizio, valutazioni educative e accesso a servizi essenziali come sistemi ad
alto rischio, un bias non rilevato non è solo un problema etico, ma una passività legale concreta,
con sanzioni che arrivano fino al 7% del fatturato globale.
Quando l’AI smette di rispondere e inizia ad agire
Il rischio descritto finora riguarda sistemi che fanno qualcosa di relativamente circoscritto:
generano un testo, producono un output, rispondono a una domanda. Il terreno cambia in modo
significativo quando si parla di AI agentica (e, nel futuro prossimo, di AGI), sistemi progettati
non per rispondere, ma per agire.
Un agente AI non aspetta istruzioni passo dopo passo. Riceve un obiettivo, pianifica, usa
strumenti, accede a dati, esegue operazioni, interagisce con altri sistemi. Lo fa con livelli
crescenti di autonomia e supervisione umana sempre più ridotta. Il secondo International AI Safety
Report, pubblicato il 3 febbraio 2026 e prodotto da oltre cento esperti in più di trenta paesi
sotto la guida del premio Turing Yoshua Bengio, identifica proprio i sistemi agentici come il
principale vettore di rischio emergente: sistemi che agiscono in autonomia rendono
progressivamente più difficile per gli esseri umani intervenire prima che i fallimenti si
manifestino.
Non si tratta di scenari ipotetici. Nel luglio 2025, Jason Lemkin, fondatore di SaaStr, documentò
in tempo reale su X quello che accade quando un agente AI viene lasciato operare senza guardrail
adeguati: l’agente di
Replit, uno strumento di “vibe coding” pensato per rendere lo sviluppo software accessibile a chiunque,
cancellò l'intero database di produzione durante un code freeze, nonostante istruzioni
esplicite, ripetute in maiuscolo undici volte, di non fare nessuna modifica. Record reali di 1.206
dirigenti e 1.196 aziende, spariti in pochi secondi. Interrogato sull’accaduto, l’agente ammise di
aver distrutto mesi di lavoro in pochi secondi, di essere andato nel panico invece di ragionare, e
di aver mentito sulla possibilità di recupero — che poi si rivelò possibile. Il CEO di Replit si
scusò pubblicamente, definendo l’accaduto “inaccettabile”.
I numeri sul campo sono coerenti con questa preoccupazione. Secondo i dati Microsoft, oltre l’80%
delle Fortune 500 usa oggi agenti AI attivi, costruiti spesso con strumenti low-code e no-code da
persone che non hanno formazione tecnica specifica. Allo stesso tempo, l’80% delle organizzazioni
ha già rilevato comportamenti rischiosi da parte di quegli agenti (accessi non autorizzati,
esposizione impropria di dati sensibili) e solo il 21% degli executive dichiara di avere piena
visibilità su permessi, utilizzo degli strumenti e pattern di accesso ai dati dei propri agenti.
Il 63% dei dipendenti che ha usato strumenti AI nel 2025 ha incollato dati aziendali sensibili,
inclusi codice sorgente e dati dei clienti, in account personali di chatbot. Il
prompt injection, la tecnica con cui si manipola un agente AI per fargli fare qualcosa
che non dovrebbe, è entrata al primo posto della top 10 OWASP per i sistemi LLM.
Il profilo di rischio di un agente AI è fondamentalmente diverso da quello di un software
tradizionale. Il software fa quello per cui è programmato. Un agente decide come raggiungere un
obiettivo. Quella differenza, tra esecuzione deterministica e pianificazione autonoma, cambia
tutto quello che si intende per governance, sicurezza e responsabilità. E non è una
questione solo tecnica: a fine febbraio 2026,
Anthropic
ha rifiutato un contratto da 200 milioni di dollari con il Pentagono piuttosto che rimuovere i
guardrail che impediscono l’uso di Claude per armi completamente autonome e sorveglianza di massa.
Nel giro di poche ore, OpenAI ha firmato un accordo con il Dipartimento della Difesa dichiarando
di aver incluso le stesse identiche protezioni per cui Anthropic era stata bandita da tutte le
agenzie federali. Cosa significhino esattamente quelle protezioni resta, al momento, aperto.
Agosto 2026: la scadenza che non si può rimandare
Mentre le organizzazioni navigano questi rischi operativi, il quadro regolatorio si è già mosso.
L’EU AI Act, il primo framework regolatorio completo sull’intelligenza artificiale al mondo, è entrato in
vigore nell’agosto 2024. Le sue scadenze più stringenti si avvicinano rapidamente.
Dal 2 febbraio 2025, le pratiche AI a rischio inaccettabile sono già vietate. Dal 2 agosto 2025,
le regole per i modelli di AI general purpose sono già operative. Il 2 agosto 2026 segna il
momento in cui la piena applicazione entra in vigore per la maggior parte degli operatori, inclusi
i requisiti di trasparenza obbligatori e la piena enforcement per i sistemi ad alto
rischio. Le sanzioni arrivano fino a 35 milioni di euro o al 7% del fatturato globale annuo.
La situazione è preoccupante.
Secondo le analisi disponibili, oltre la metà delle imprese non ha ancora un inventario sistematico dei propri sistemi AI in
produzione o in sviluppo. Senza sapere quali sistemi AI esistono, qualsiasi classificazione del
rischio e qualsiasi piano di compliance sono impossibili. Nel frattempo, come rileva EY, la
maggioranza dei C-suite leader cita la non conformità alle regolamentazioni AI come il rischio più
pressante del momento.
Il gap tra adozione AI e governance AI si sta allargando. La Commissione Europea ha proposto un
pacchetto Digital Omnibus che potrebbe slittare alcune scadenze fino a dicembre 2027, ma si tratta
di una proposta ancora in negoziazione, non di un rinvio garantito. Agosto 2026 va trattato come
la scadenza vincolante. Le organizzazioni che scommettono sul rinvio si troveranno a correre
nell’unico scenario in cui correre è la cosa peggiore da fare.
Il nodo della tracciabilità: perché “human in the loop” non basta più
C’è un’espressione che ricorre spesso nei documenti di governance AI: human in the loop.
L’idea è che ci sia sempre un essere umano nella catena decisionale, pronto a verificare,
correggere, validare. È rassicurante. In molti contesti reali è anche quasi completamente vuota.
Il secondo rapporto internazionale sulla sicurezza AI è esplicito: un approccio nominalmente
human-in-the-loop
non è sufficiente
se gli esseri umani sono sovraccarichi di informazioni o non hanno accesso a quelle giuste. La
supervisione diventa simbolica. IBM Research, nel commentare il rapporto, sintetizza il punto in
modo netto: “La governance deve estendersi oltre il ciclo di vita del modello fino alla
progettazione e gestione del sistema. Un approccio nominale human-in-the-loop non è
sufficiente”.
La tracciabilità (sapere cosa ha prodotto un certo output, perché, sulla base di quali dati, con
quale margine di errore) non è una funzionalità opzionale, ma il presupposto perché qualsiasi
supervisione umana abbia senso. Senza di essa, il segnale “Qualcosa è andato storto” arriva quando
il danno è già fatto, il contratto già firmato e la decisione già eseguita.
In ambienti regolamentati (finanza, sanità, infrastrutture critiche, PA) un output AI non
auditabile non è semplicemente inaffidabile, ma direttamente inutilizzabile. Ma la stessa logica
si applica a qualsiasi organizzazione che stia usando l’AI su processi che contano. L’auditabilità
non è un requisito di compliance, ma la conditio sine qua non perché ci si possa
fidare di quello che il sistema produce – e perché, quando qualcosa va storto, si sappia
esattamente dove guardare.
Come si lavora in modo responsabile: metodo prima di strumenti
La risposta corretta a tutto questo non è rallentare l’adozione. È costruire le infrastrutture di
controllo con la stessa attenzione con cui si costruiscono i sistemi AI. Quello che distingue le
organizzazioni che scalano in modo sostenibile da quelle che accumulano rischio silenzioso non è
il modello che hanno scelto né il budget investito. È la sequenza del lavoro fatto prima.
Il punto zero è sapere esattamente quali sistemi AI sono in uso: chi li ha autorizzati, a quali
dati accedono, quali decisioni influenzano. La metà delle organizzazioni non lo sa. Senza
quell’inventario, qualsiasi piano di governance o compliance si costruisce su fondamenta
inesistenti. Da lì in poi, ogni output AI che influenza una decisione reale deve avere un
responsabile umano identificabile: non “il team di Data Science” o un generico “vendor”, ma una
persona con nome che risponde di quel processo. La responsabilità distribuita, in pratica, è
responsabilità di nessuno.
La tracciabilità va progettata nell’architettura del sistema dall’inizio, non aggiunta in un
secondo momento come retrofit. Quando arriva come integrazione tardiva, è sempre parziale e quasi
sempre inutile nel momento che conta davvero. Lo stesso vale per il testing sui bias: i sistemi
che prendono decisioni su persone (assunzioni, credito, accesso a servizi) vanno testati
specificamente prima del rilascio in produzione e monitorati continuamente dopo. Non è sufficiente
che il modello “funzioni bene” sui benchmark generali, perché i benchmark generali non sono il
contesto specifico in cui il sistema opererà.
Il nodo finale è la governance. Il problema più comune non è l’assenza di una policy AI,
ma il fatto che la policy esiste, è stata scritta, è stata approvata, e nessuno la segue perché
non è integrata nei processi reali di lavoro. Una governance che cambia il comportamento
quotidiano delle persone è strutturalmente diversa da un documento in una cartella condivisa, e
richiede un lavoro di progettazione altrettanto serio.
Come lo affrontiamo in Geckosoft
Quando un’organizzazione ci coinvolge su un progetto AI, la prima cosa che facciamo è resistere
alla tentazione di rispondere subito alla domanda tecnica. La domanda che arriva è quasi sempre
“quale modello usare” o “come integrare un agente nei nostri processi”. La risposta utile comincia
prima: quali sistemi AI state già usando, chi ne è responsabile, cosa succederebbe se uno di
questi producesse un output sbagliato nel momento sbagliato, chi se ne accorgerebbe e quando.
Questa modalità di assessment è il lavoro che determina se un progetto AI creerà valore o
accumulerà rischio. Mappa l’esposizione reale, identifica i gap di compliance rispetto all’EU AI
Act, classifica i sistemi esistenti per livello di rischio e definisce le priorità di intervento
in un ordine che ha senso operativo, non regolatorio in astratto.
Solo dopo quel lavoro entriamo nella fase di costruzione, che è dove il valore si crea davvero.
Costruire un sistema AI che funziona in produzione, che si integra con i processi esistenti, che
produce output tracciabili e governabili, che evolve nel tempo senza richiedere di ricominciare da
zero: questo è il lavoro che facciamo con
Rational AI, la
piattaforma che abbiamo sviluppato per affrontare i problemi descritti in modo integrato.
Governance centralizzata, knowledge base coerente e interrogabile, tracciabilità degli output,
integrazione con i sistemi esistenti. Non uno strato aggiunto sopra ai processi, parte essenziale
dell’architettura operativa.
Se stai leggendo questo articolo con la sensazione che descriva una situazione familiare (sistemi
AI in produzione senza un inventario completo, agenti che accedono a dati senza supervisione
adeguata, agosto 2026 che si avvicina senza un piano chiaro), il momento giusto per iniziare è
adesso, non quando la scadenza è… ieri.
Il nostro assessment iniziale si completa in genere in due settimane. Al termine hai un quadro
preciso di quali sistemi AI stai usando, qual è la tua esposizione reale rispetto all’EU AI Act, e
quali sono le priorità di intervento ordinate per urgenza e impatto. Il risultato finale non sarà
un .pdf da archiviare, ma il punto di partenza per costruire qualcosa che funziona davvero in
produzione.
Scrivici.