medical-privacy

Le questioni etiche e di privacy della data augmentation in campo medico

Le problematiche etiche derivanti dall’uso della data augmentation, o generazione di dati sintetici, nel campo della medicina sono sempre più evidenti. Questa tecnica, che viene anche chiamata synthetic data generation, è un processo in cui vengono creati dati artificiali al fine di arricchire un set di dati di partenza o di superare alcune limitazioni. Questo tipo di tecnologia viene particolarmente usata nel caso in cui debbano essere allenati modelli di AI per il riconoscimento di malattie rare, su cui i dati a disposizione per il training sono scarsi. Tramite la data augmentation, altri dati possono essere artificialmente, rimanendo comunque rappresentativi del campione di partenza.  

Dal punto di vista tecnico, la data augmentation viene effettuata utilizzando algoritmi che modificano i dati esistenti o generano nuovi dati basati su quelli esistenti. Ad esempio, nel contesto dell’elaborazione delle immagini, le immagini originali possono essere modificate ruotandole, sfocandole, aggiungendo rumore o cambiando il contrasto. In questo modo, si ottengono diverse varianti di un’immagine originale che possono essere utilizzate per addestrare modelli di intelligenza artificiale. L’utilizzo di questa tecnologia rende sempre più efficace l’utilizzo di AI per il riconoscimento di patologie, come ad esempio alcuni tipi di tumori rari.

Tuttavia, ci sono diverse problematiche etiche che sorgono dall’uso della data augmentation nella medicina. Una delle principali preoccupazioni riguarda la qualità dei dati generati. Se i dati di partenza non sono rappresentativi della popolazione o se contengono errori o bias, l’applicazione della data augmentation potrebbe amplificare tali problematiche. Ad esempio, se il set di dati originali riguarda solo maschi bianchi caucasici, c’è il rischio che il risultato della data augmentation abbia un bias verso tali soggetti, trasferendo le disuguaglianze presenti nei dati originali ai dati generati.

La replicazione dei bias è certamente la questione più critica a riguardo della data augmentation. Se il modello di intelligenza artificiale viene addestrato su dati generati in modo non rappresentativo o con bias intrinseci, il modello stesso potrebbe perpetuare tali bias durante il processo decisionale. Per questo motivo, nella synthetic data generation, la qualità del dataset di partenza è una problematica ancor più critica di quanto non sia in generale per l’artificial intelligence.

La privacy dei dati è un’altra problematica da considerare. L’utilizzo della data augmentation richiede l’accesso ai dati sensibili dei pazienti, che potrebbero includere informazioni personali o riservate. È fondamentale garantire che questi dati vengano adeguatamente protetti e utilizzati solo per scopi specifici. Per affrontare queste preoccupazioni, sono state proposte soluzioni come il federated learning e la multiparty computation. Questi approcci consentono di addestrare modelli di intelligenza artificiale senza dover trasferire i dati sensibili in un unico luogo, proteggendo così la privacy dei pazienti.

Il federated learning è un approccio innovativo all’addestramento dei modelli di intelligenza artificiale che affronta le problematiche legate alla privacy dei dati. Invece di trasferire i dati sensibili dei singoli utenti o dei dispositivi a un server centrale, il federated learning consente di addestrare i modelli direttamente sui dispositivi degli utenti.

Il processo di federated learning funziona nel seguente modo: inizialmente, viene creato un modello globale che viene distribuito a tutti i dispositivi degli utenti partecipanti. Successivamente, questi dispositivi addestrano il modello utilizzando i propri dati locali senza condividerli con il server centrale. Durante l’addestramento locale, i modelli sui dispositivi vengono costantemente aggiornati e migliorati.

Successivamente, invece di inviare i dati grezzi al server centrale, solo i parametri aggiornati del modello vengono inviati e aggregati in un nuovo modello globale. Questa aggregazione avviene in modo sicuro e privato, garantendo che i dati personali non vengano esposti o compromessi.

Infine, è importante sottolineare che ci sono molte altre problematiche etiche correlate all’uso della data augmentation nella medicina. Ad esempio, c’è il rischio che la generazione di dati sintetici possa portare a una semplificazione eccessiva dei problemi medici complessi, ignorando la complessità delle situazioni reali. Nel contesto della futuro AI Act, e delle “Ethics Guidelines for Trustworthy AI” della Commissione Europea, si configura come sempre più fondamentale l’analisi di tecnologie così complesse, e dall’impatto così vasto, come i sistemi di AI al supporto delle decisioni in campo medico.