Inserita tra le dieci tecnologie più innovative del 2022, quella dei Synthetic Data è certamente una delle soluzioni emergenti per abilitare un accesso ai dati più rapido, economico e sicuro. Si tratta di un’altra frontiera per l’AI.
I dati sintetici rappresentano una inedita modalità di elaborazione dei dati non riconducibili direttamente a specifici parametri o a persone esistenti. Non sono raccolti dal mondo reale, ma modellati con analoghe inferenze tramite simulazioni matematiche. Presentano dunque ricorrenze e proprietà statistiche praticamente identiche a quelle dei dati autentici di partenza. Grazie ad algoritmi generativi, i modelli sono in grado di replicare database artificiali di ogni tipo, creando dati alfanumerici, immagini, video e suoni.
Il principale utilizzo è l’addestramento dell’Intelligenza Artificiale e dei sistemi basati sul Machine Learning. Modelli che richiedono un’enorme mole di dati con un alto livello qualitativo, accurati e differenziati a sufficienza in base ai training da eseguire. Un obiettivo difficile da raggiungere per le aziende, perché spesso i dati sono scarsi o inadeguati e assicurare la Data Quality è un processo di etichettatura manuale lungo e molto dispendioso.
In questo senso, i dati sintetici danno innegabili vantaggi: sono più semplici da generare, uniformi e scalabili, offrono migliori performance in tutte le fasi operative dei test. Inoltre, sono in grado di prevedere i casi limite che nella realtà si verificano di rado, evitando lacune rilevanti ai modelli predittivi. Infine, consentono la correzione di errori e pregiudizi durante i processi di apprendimento. Nello sviluppo di algoritmi evoluti, i Bias e le discriminazioni sono i peggiori nemici dell’Intelligenza Artificiale.
Il fattore di maggiore attrattiva dei dati sintetici è quello relativo alla tutela della Privacy. La Data Synthetization fa parte delle cosiddette PETs (Privacy-Enhancing Technologies), ovvero delle tecniche che aumentano la conformità alle normative sulla protezione dei dati quali GDPR e HIPAA. Dal punto di vista metodologico, poter addestrare un algoritmo a comprendere i comportamenti senza sottoporre nessun dato reale è un plus decisivo, l’importante è che non sia possibile operare una re-identificazione e ricondurre i dati di sintesi a quelli originali. A volte è necessario un mix di più sistemi di prevenzione, laddove non siano sufficienti l’anonimizzazione dei dataset o il Data Masking, può essere utile la Crittografia omomorfica che consente di recuperare dati significativi per l’algoritmo senza decriptarli.
Sono sempre più numerosi gli impieghi nelle varie industry. I dati sintetici sono sfruttati, ad esempio, dalla Finanza per prevedere l’andamento dei mercati; da Banche e Assicurazioni per segnalare le frodi; dai Big dell’E-commerce per addestrare gli assistenti vocali nella comprensione del linguaggio naturale. Per non parlare di settori sensibili e altamente regolamentati quali Automotive e Trasporti per il training dei sistemi che perfezionano la guida autonoma, oppure Healthcare e Pharma per la ricerca genomica e le innumerevoli sperimentazioni di laboratorio.
Le aziende riscontrano nei dati sintetici una soluzione ideale per la governance dei fenomeni di loro interesse, libere dalla grande complessità di quelli reali e da problematiche di riservatezza. L’impiego di queste tecnologie è in continuo aumento e la quasi totalità dei leader di mercato sta investendo da tempo anche in questo settore. Tanto che, secondo gli analisti di Gartner, entro il 2024 il 60% dei dati utilizzati per i progetti di AI sarà sintetico.
Come per ogni altra innovazione, occorrerà verificarne gli impatti e ridurne gli eventuali conflitti. Nel trovare regole condivise a salvaguardia degli aspetti etici e normativi, una parte importante dovrà essere svolta dalle istituzioni e dalle authority preposte. Mentre dialoghiamo con ChatGPT per inventare interviste, proposte di matrimonio e canzoni, il virtuale si espande e la sintetizzazione cresce senza limiti apparenti. Non dovremo attendere molto e non sarà necessario lasciare ai posteri l’ardua sentenza: entro qualche anno potremo già fare più di un consuntivo.