Prossima

Esiste un'etica dei dati? E come e dove possiamo intervenire per costruire set di dati che non riproducano e consolidino stereotipi di genere? Ne parliamo con Monica Costantini, esperta di analisi, sicurezza e trasparenza dei dati

Etica
dei dati

innovazione

inclusione

dati

di Barbara Leda Kenny

19 Aprile 2023

7 min lettura

Si discute molto in questo momento di etica dei dati, stereotipi inconsapevoli e di quali riflessioni entrano o non entrano nella costruzione e nella gestione delle informazioni. Ne parliamo con Monica Costantini, esperta di Internet of Things (IoT), analisi, sicurezza e trasparenza dei dati.

A partire dalla tua esperienza e raccontandoci anche il tuo lavoro, in quale punto del processo di raccolta e costruzione dei dati si potrebbe o dovrebbe intervenire?

La domanda è di per sé molto complessa perché è complesso il mondo degli algoritmi. Per portarci tutti a uno stesso registro di conversazione vorrei fare una premessa e dire che l’intelligenza artificiale non è nient'altro che uno strumento informatico che tenta di riprodurre l'analisi che fa il nostro cervello delle informazioni che lo circondano. Da qui il primo problema: non conosciamo il funzionamento delle nostre reti neurali così bene da poterlo riprodurre in maniera performante. Da quando ho iniziato a studiare e lavorare su questo tema ho visto progressi incredibili, ma ho anche capito che riproduciamo solo quello che conosciamo. Quindi, quando un gruppo di ricercatori fa una rete neurale per studiare uno specifico fenomeno e per costruire un modello, lo fa utilizzando il suo modo di ragionare, quel modo si iscrive quindi nel modello. Se questa è la premessa, definire l’intelligenza artificiale come una scatola nera è sbagliato: non ci vengono infilate cose che poi vengono risputate fuori a caso; quell’intelligenza la stiamo costruendo noi e quindi è permeata dalla nostra visione del mondo. Il problema è che questo processo è inconsapevole.

Quindi come facciamo ad affrontare un problema così complesso?

Per affrontare un problema si parte sempre dai dati disponibili e si prova a immaginare quello che si vorrebbe ottenere. I dati vengono raccolti sulla base di una domanda, di un’esigenza. Non ci sono dati su tutto, ci sono solo alcuni dati. Questo significa tutta una parte di conoscenza si perde perché nessuno la raccoglie e la classifica. Quindi, per esempio, possiamo dire che se non raccogliamo dati che raccontano la vita e le esigenze delle donne significa che perdiamo conoscenza.

Perché un dato non è mai neutro?

Ragionando sui dati si arriva al confine con la filosofia, il dato non è neutro, non è oggettivo. Gli scienziati e i matematici lo sanno da secoli: quando guardiamo un sistema ne diamo la nostra interpretazione, lo rappresentiamo seguendo schemi mentali e in base a quello che ci serve in un dato momento. Partiamo con degli assiomi e arriviamo a una conclusione, e non è detto che quella sia l'unica rappresentazione possibile, ma solo una delle infinite possibilità che possono risultare. In altre parole, se provassimo a partire da altri assiomi, costruendo un ragionamento e provando a rielaborare la stessa informazione ne produrremmo di diverse. Non voglio dire che lavoriamo senza consapevolezza, ma che i bias, o pregiudizi, si sedimentano lungo il processo a partire dai dati su cui lavoriamo.

Cosa si potrebbe fare per ovviare ai pregiudizi di chi costruisce, analizza e sintetizza un dato?

Almeno tre cose. La prima, porre questa domanda negli ambiti tecnici, dove si tende a non porsi problemi etici. Anzi, l’approccio è: ho un problema, devo fornire un modello che preveda soluzioni. Non ci preoccupiamo di mettere in discussione il nostro punto di vista sul problema o sulla soluzione e quindi sicuramente la problematizzazione sarebbe un primo passo. La seconda cosa, promuovere l’eterogeneità dei gruppi di sviluppatori. Ci sono molte pubblicazioni a sostegno di questa ipotesi, per esempio è stato riscontrato come nei gruppi eterogenei di sviluppatori di intelligenza artificiale gli algoritmi siano maggiormente rappresentativi della realtà. La terza, intervenire sui dataset, ossia sul modo in cui i dati vengono aggregati ed etichettati. In ambito tecnico questo è un tema molto dibattuto, perché il modo in cui i dati vengono organizzati ed etichettati andrebbe discusso e spiegato. Questa informazione diventa utile per chi poi usa il data set, perché consente di comprendere eventuali errori fatti nell’etichettatura o di individuare dei pregiudizi. A queste tre cose se ne aggiunge un’ultima e forse la più importante che è la domanda.

Spiegaci meglio.

Per i tecnici le funzionalità sono tecniche e non sociali, però attraverso la tecnica possiamo arrivare a delle funzionalità sociali ma, per ottenerle, qualcuno deve porre le domande e le deve inquadrare in una visione più ampia e credo che questo sia un compito della politica e della pubblica amministrazione. Perché per gli sviluppatori un modello sulla mobilità o sulla qualità dell'aria è un dato “puro”, lavoriamo solo su quel piccolo pezzetto, lo semplifichiamo e lo rendiamo analizzabile, ma probabilmente ricevendo input diversi anche da parte del committente potremmo produrre risultati molto diversi.

Nel tuo lavoro ti sei occupata molto di mobilità e dati per la mobilità, un tema particolarmente sensibile da un punto di vista di genere. Ci faresti un esempio concreto per spiegare in che modo i dati sulla mobilità possono aiutarci a organizzare i trasporti in maniera più equa?

Se c’è un bias nel dataset, o se i dati sono sempre nuovi ma il procedimento con cui vengono ricavati e catalogati è sempre lo stesso, si rafforza il pregiudizio dell’intelligenza artificiale perché il modello viene sviluppato sull’apprendimento e la macchina impara a mano a mano che esegue. La mobilità è un esempio evidente di questa cosa. Se io stabilisco che le fermate di una certa linea dell'autobus sono quelle e poi, a fine anno, vado a verificare i dati di affluenza su quella linea, questo non rimette in discussione il fatto che forse il percorso non è giusto o che forse bisognerebbe cambiare alcune delle fermate o rafforzarla in certi orari. Cioè, se io ripercorro sempre lo stesso pattern alla fine quello che faccio è rafforzare la mia convinzione iniziale come, per esempio, che sono utili solo le linee che dalla periferia vanno al centro. Ma sulla mobilità possiamo fare altri esempi che ci raccontano come cambia la città: per esempio tra le innovazioni recenti, mi riferisco alle piattaforme di sharing, che non prevedono il trasporto di bambini o di persone con disabilità, le biciclette non hanno seggiolini e, probabilmente, se devo fare la spesa non prenderò una bicicletta condivisa perché non saprei dove metterla.

Questo problema riguarda in particolar modo le donne?

Anche se non dovrebbe essere solo un problema delle donne, poi di fatto i dati ci dicono che lo è. Quindi lo dobbiamo assumere, anche quando ragioniamo su una mobilità pubblica o condivisa. Esistono diversi sistemi per la condivisione delle informazioni sulla mobilità, anche piattaforme open data, che consentono alla cittadinanza di partecipare alla costruzione di vari livelli di informazione sulla città, costruendo strati di dati che raccontano la vita quotidiana e contribuiscono a identificare proposte che non guardino solo alla mobilità, ma a una molteplicità di aspetti. Quando, infatti, guardiamo alla mobilità pensando solo a quante persone si devono spostare da una certa zona della città al centro, si fanno scelte che rafforzano le disuguaglianze. Per esempio, in molte città europee, per ridurre il numero di pendolari che usano la macchina, i biglietti costano meno negli orari di punta, ma se statisticamente il numero di utenti più alto sono le donne che usano il trasporto pubblico fuori da quelle fasce orarie, significa che per le donne il costo è più alto.

Dove intravedi delle soluzioni a questo sistema di pensiero?

La soluzione è a monte e va cercata in come interpretiamo il dato, nella sua costruzione – che potrebbe appunto essere un processo di cittadinanza. Gli strumenti ci sono, basterebbe utilizzarli, e soprattutto una volta costruiti, i dati andrebbero messi a disposizione di chi li vuole utilizzare rendendo trasparente qual era la logica di rilevamento e di catalogazione. Per pensare le città, non vanno interrogati solo i dati, ma anche il processo con cui vengono costruiti mettendo in discussione lo standard e chiedendosi chi partecipa, quali privilegi o bisogni sta portando. Questo è fondamentale per dare risposta a bisogni diversi e non obbligare le persone ad adeguarsi alle esigenze di altri e quindi ad avere servizi disfunzionali.

Intervista realizzata in occasione di 'Women in Tech' rassegna a cura dell'Agenda Digitale dell'Emilia Romagna.