Negli ultimi anni, l’importanza dei dati e delle informazioni da essi ricavabili è diventata un elemento centrale nelle attività di aziende, istituzioni e organismi governativi.
All’interno del mondo dei dati, il ruolo dei dati sintetici sta diventando sempre più cruciale. Scopriamo di cosa si tratta!
Che cosa sono i dati sintetici?
Secondo Gartner (nota società di consulenza e ricerca nel settore tecnologico) i dati sintetici “sono dati generati applicando una tecnica di campionamento ai dati del mondo reale o creando scenari di simulazione in cui modelli e processi interagiscono per creare dati completamente nuovi non presi direttamente dal mondo reale”.
I dati sintetici sono dati generati artificialmente tramite l’impiego dell’Intelligenza Artificiale. Tali dati vengono creati utilizzando algoritmi e modelli statistici che replicano i modelli, le caratteristiche e le relazioni presenti nei dati del mondo reale.
Si tratta di dati che non sono raccolti a partire da un’interazione con il mondo reale ma che sembrano in tutto e per tutto simili a dati autentici, riferiti a persone esistenti.
Più precisamente, attraverso la data synthetization si producono “in provetta” database artificiali che presentano proprietà statistiche estremamente simili, se non identiche, a quelle dei dati di partenza: questo significa che se conduciamo un’indagine sul dataset originale e su quello sintetico i risultati saranno identici.
La crescita nell’utilizzo di dati sintetici è esponenziale: sempre secondo Gartner, entro il 2024 il 60% dei dati utilizzati per lo sviluppo di progetti di Intelligenza Artificiale e analytics sarà generato sinteticamente. Inoltre, Secondo uno studio condotto da Grand View Research, il mercato globale dei dati sintetici nel 2030 arriverà a 1,79 miliardi.
Un trend da tenere monitorato, anche per i vantaggi che l’uso dei dati sintetici comporta.
Privacy e allenamento dell’algoritmo: i grandi vantaggi dei dati sintetici
I vantaggi principali che derivano dall’utilizzo dei dati sintetici sono due: rispetto della privacy e possibilità di allenare gli algoritmi di Intelligenza Artificiale, ma andiamo in dettaglio.
- L’utilizzo di dati creati artificialmente, che rispettano in tutto e per tutto le caratteristiche e la valenza statistica di quelli originali ma che non sono riconducibili ai dati di partenza, permette di avere una notevole mole di dati da analizzare, elaborare ed utilizzare nel totale rispetto dei regolamenti sulla privacy a partire dal GDPR fino ad arrivare all’AI act.
Se si generano dati sintetici correttamente e con filtri appropriati, è possibile garantire una maggiore sicurezza rispetto alle tradizionali tecniche previste dal GDPR (come l’anonimizzazione e pseudonimizzazione) poiché sarebbe, di fatto, impossibile ricondurre i dati a delle persone. Vengono quindi ridotti a zero i rischi presenti quando si utilizzano e trattano dati reali con PII (personally identifiable information). - Allo stesso tempo, la possibilità di creare artificialmente dati, anche in grandi quantità, consente di risolvere il problema alla base dell’allenamento degli algoritmi di Intelligenza Artificiale che necessitano di alti volumi di dati per poter progredire e svilupparsi. In alcuni casi, poi, sarebbe anche molto complesso e richiederebbe troppo tempo avere a disposizione una quantità sufficiente di dati reali, pensiamo ad esempio allo sviluppo delle macchine a guida autonoma o al settore sanitario. Aziende come Tesla e Uber stanno già utilizzano dati sintetici per analizzare e progettare macchine self-driving. Amazon, invece, li utilizza per addestrare strumenti come Alexa mentre American Express grazie a questi dati artificiali sta addestrando un algoritmo per l’identificazione delle frodi.
Quali i rischi potenziali dell’uso dei dati sintetici?
Non ci sono solo vantaggi, l’uso dei dati sintetici porta con sé anche alcuni rischi che è sempre bene tenere a mente:
- i dati sintetici non sono uguali al 100% ai dati reali, o non lo sono ancora, e potrebbero non avere lo stesso livello di accuratezza;
- potrebbero contenere bias o pregiudizi, che si rifletterebbero sull’analisi finale e sull’allenamento non corretto dell’algoritmo;
- non sono applicabili a ogni tipo di analisi, quindi verrebbero utilizzati solo per alcuni scopi;
- il controllo dell’output basato su dati sintetici potrebbe essere complesso, per valutarne l’accuratezza sarebbe comunque necessario un confronto con dati reali o generati dagli umani, il che porterebbe alla necessità di accedere a questi dati e a relativi limiti di privacy.
Come si sono evoluti i dati sintetici?
Abbiamo visto come i dati sintetici siano dati generati artificialmente tramite l’impiego dell’Intelligenza Artificiale, ma questo non vale per tutti i tipi di dati sintetici esistenti.
In realtà esistono tre tipologie di dati sintetici, di cui la più utilizzata è quella collegata all’uso dell’Intelligenza Artificiale. Le altre due tipologie sono:
- i dummy data o mock data;
- i dati sintetici rule-based;
I dummy data sono dati fittizi, generati in maniera casuale quindi senza che caratteristiche, relazioni e pattern statistici presenti nei dati originali vengano preservati. Parliamo quindi di dati di bassa qualità utilizzati quando non ci sono abbastanza dati né risorse per crearne altri.
I dati sintetici rule based sono dati generati artificialmente a partire da un determinato set di regole predefinito. Maggiore sarà l’accuratezza nella definizione delle regole di partenza, migliore sarà la qualità del risultato finale. Anche in questo caso la qualità è inferiore all’uso dell’IA perchè la creazione di regole a priori non può essere altrettanto completa e esaustiva quanto l’applicazione di algoritmi.
In quali settori vengono utilizzati i dati sintetici
Abbiamo visto come alcune aziende tipo Amazon, American Express e Tesla stiano già utilizzando i dati sintetici per allenare i propri algoritmi di Intelligenza Artificiale, ma sono molti i settori in cui questo avviene.
Le banche, e in generale il mondo finanziario, stanno puntando molto sui dati sintetici per creare prodotti e servizi nuovi senza dover lavorare sui dati dei propri clienti. Un discorso molto simile si può fare per il retail, che utilizza questi dati per testare nuove tecnologie in grado di offrire prodotti sempre più personalizzati in base ai comportamenti analizzati dei propri clienti.
Anche la sanità e i trasporti sono due settori in cui l’uso di dati artificiali permette e permetterà grandi innovazioni, per diagnosi mediche più avanzate e meno invasive o per la gestione del traffico.
Infine, le aziende manifatturiere li stanno utilizzando per il test dei macchinari e ottimizzarne le prestazioni, così come il settore della logistica li impiega per una migliore pianificazione dei percorsi e per la ricerca di soluzioni tecnologiche più efficaci.
La rivoluzione tecnologica in corso, basata sull’evoluzione dell’Intelligenza Artificiale e sulla sua applicazione a diversi ambiti, riguarda, dunque, anche il mondo dei dati, generando tramite algoritmi una fonte quasi inesauribile di informazioni che riproduce in tutto e per tutto la realtà.
Il fatto che i dati sintetici replichino le caratteristiche, le relazioni e i pattern statistici permette di avere energia per allenare gli algoritmi di Machine Learning e Deep Learning nel totale rispetto della normativa sulla privacy, italiana ed europea.
Ancora una volta, stiamo osservando l’inizio di un importante cambiamento che si rifletterà sulla nostra vita lavorativa e su quella privata.
Continua a seguire il blog Skilla per rimanere aggiornato sui prossimi sviluppi!