Prossima

L'intelligenza artificiale può essere usata in modo inclusivo per eliminare discriminazioni e pregiudizi, come quelli contenuti nel linguaggio amministrativo. È quello che fa E-Mimic, un innovativo progetto di ricerca di linguistica e data science. Ne parliamo con Stefania Cavagnoli dell'Università di Roma Tor Vergata e Tania Cerquitelli del Politecnico di Torino

Correggere i
pregiudizi con l'AI

intelligenza artificiale

inclusione

buone pratiche

di Martina Marzi

19 Giugno 2024

6 min lettura

Credits Unsplash/and machines

Come ci dicono esperte e studiose, una delle maggiori sfide nel campo dell'Ai è quella di rendere libere dagli stereotipi le tecnologie che utilizziamo.

Tutto parte dai dati di cui l'intelligenza artificiale si alimenta, ancora fortemente caratterizzati da stereotipi e pregiudizi, soprattutto di genere.

Qualcosa, però, sta cambiando, anche grazie a nuovi progetti di ricerca che propongono soluzioni per sviluppare un'AI più inclusiva. Fra questi c'è Empowering Multilingual Inclusive Communication (E-Mimic).

Finanziato dal Ministero dell'Università e della ricerca, il progetto è risultato tra i vincitori del bando 2022 per i Progetti di rilevante interesse nazionale (Prin), e si pone l'obiettivo di correggere le discriminazioni e i pregiudizi contenuti nel linguaggio dei testi amministrativi e universitari in italiano, fornendo un supporto nella composizione di testi inclusivi e rispettosi delle diversità attraverso algoritmi di deep learning per l'elaborazione del linguaggio naturale.

Nella pratica, tutto questo sarà possibile grazie a Inclusively, il sistema software sviluppato nell'ambito del progetto grazie al lavoro di ricerca delle e dei linguisti dell'Università di Roma Tor Vergata e dell'Università di Bologna, e a quello delle ricercatrici e dei ricercatori di machine learning e deep natural language understanding del Politecnico di Torino.

Come spiegato nella demo dimostrativa, Inclusively è un'applicazione web pensata per diverse tipologie di utenti. Grazie alla sua interfaccia multipla, il software potrà essere utilizzato, come un vero e proprio assistente virtuale, da chiunque abbia bisogno di supporto nella scrittura di testi, per correggerli e migliorarli dal punto di vista dell'inclusività. L'altro uso di Inclusively sarà per gli e le addette ai lavori, sia in ambito linguistico che di data science.

L'interfaccia di valutazione e annotazione permetterà infatti a chi lavora o fa ricerca nel settore della linguistica di fornire un feedback sulle classificazioni elaborate dal software, ed eventualmente di suggerire soluzioni alternative più adatte, nell'ottica di affinare sempre di più i risultati. Con l'ultima interfaccia, quella di ispezione, esperti ed esperte di data science e di linguistica computazionale potranno valutare i modelli usati dalla piattaforma, testando in maniera diretta il suo funzionamento, con la possibilità di intervenire sugli algoritmi per perfezionarli.

Attualmente Inclusively è disponibile in italiano, e sono in via di sviluppo anche la versione in francese e quella in spagnolo, che permetteranno di mettere a confronto fra loro diverse lingue romanze. Rispetto all'inglese, queste ultime risultano molto più caratterizzate da disparità linguistiche, riflesso di quelle culturali e sociali.

Abbiamo rivolto alcune domande su E-Mimic e Inclusively a Stefania Cavagnoli, professoressa ordinaria di Didattica delle lingue e Linguistica applicata all'Università di Roma Tor Vergata e vicecoordinatrice del Centro di ricerca Grammatica e sessismo dell'Ateneo, e a Tania Cerquitelli, professoressa ordinaria presso il Dipartimento di Automatica e informatica del Politecnico di Torino e responsabile scientifica del progetto.

Da dove nasce il progetto E-Mimic, qual è il contesto di riferimento?

Come prima cosa, bisogna tener presente che i modelli linguistici (in inglese Large Language Model, abbreviato in LLM) – come Chat GPT, ndr – sono generati da algoritmi data-driven, che, cioè, estraggono informazioni nascoste dai dati, modellando correlazioni latenti. Questi modelli sono addestrati su grandi corpora (collezioni di grandi dimensioni di testi orali o scritti prodotti in contesti comunicativi reali e conservati in formato elettronico, ndr) di documenti generati e condivisi da esseri umani, e, pertanto, riflettono inevitabilmente le loro percezioni, opinioni ed eventuali pregiudizi. Queste distorsioni (bias) vengono quindi ereditate naturalmente dai modelli linguistici, che possono perpetuare e amplificare stereotipi di genere, etnia, età, nonché pregiudizi sociali e culturali. Ad esempio, un modello addestrato su documenti che contengono stereotipi di genere potrebbe generare un testo che rafforza alcuni pregiudizi, influenzando negativamente le opinioni delle persone.

Quali sono i maggiori rischi legati alla presenza di pregiudizi e stereotipi in questi strumenti?

La presenza di bias nei modelli per l'elaborazione del linguaggio naturale è problematica non solo per motivi etici, ma anche per l'affidabilità e l'accuratezza degli algoritmi di intelligenza artificiale. Modelli distorti possono produrre risultati inaccurati, discriminatori o addirittura offensivi, compromettendo la fiducia degli e delle utenti e limitando l'adozione di queste metodologie in contesti sensibili come la sanità, l'istruzione e il lavoro. I modelli linguistici possono però essere specializzati per eseguire compiti specifici, realizzando una nuova fase di addestramento su una specifica collezione di dati.

Il progetto E-Mimic si fonda sul lavoro svolto parallelamente da due gruppi di ricerca, quello di linguistica e quello di data science. In che modo il lavoro del primo si interseca con quello del secondo, e viceversa?

Avere a che fare con la lingua e la tecnologia necessariamente ha bisogno di un approccio interdisciplinare. Le competenze messe in atto nel progetto coprono infatti i due settori. La linguistica interviene nel controllo delle frasi, nella riscrittura, nella proposta di ulteriori possibili soluzioni, dopo che le scienziate dei dati hanno elaborato il modello, che adeguano a seconda delle necessità condivise nel gruppo di ricerca allargato.

Professoressa Cavagnoli, può spiegarci che cosa significa addestrare un algoritmo contro gli stereotipi di genere?

Addestrare un modello per mitigare la presenza di stereotipi significa effettuare una specializzazione di un modello linguistico esistente mediante una nuova fase di addestramento, utilizzando una collezione di dati priva di distorsioni linguistiche. Il processo di selezione e annotazione dei documenti deve essere coordinato da un gruppo di esperti ed esperte linguistiche, che lavorano in sinergia per creare un set di documenti libero da stereotipi.

Ci può fare un esempio concreto?

È importante evitare di utilizzare esclusivamente ruoli predefiniti al maschile per posizioni apicali tecniche, garantire che la frequenza dei termini di genere sia rappresentativa della collettività, utilizzare un linguaggio neutrale rispetto al genere, bilanciare l'uso di pronomi maschili, femminili e neutri, e condurre test specifici per assicurarsi che le risposte dell'algoritmo utilizzino sempre un linguaggio inclusivo, evitando stereotipi di genere. Un caso d'uso concreto è, ad esempio, l'utilizzo di un aggettivo positivo per descrivere una persona di sesso maschile affiancato dalla descrizione negativa dell'operato di una donna.

Perché è così importante avere una comunicazione inclusiva, e che contributo può dare Inclusively, il software sviluppato nell'ambito del progetto E-Mimic?

Educare a una comunicazione inclusiva è determinante, ed è un'azione che va messa in atto a partire dalla vita familiare e scolastica. Naturalmente, ormai siamo tutti e tutte immerse in una comunicazione mediata dal computer. Si tratta, da un lato, di una comunicazione veloce e sempre più sintetica, e, dall'altro, di una comunicazione non verificata, con molti testi. La nostra vita è scandita dal rapporto con la testualità mediata dall'informatica, è il nostro punto di riferimento nella ricerca di informazioni, nella socialità interrelazionale. Per questo motivo, è assolutamente necessario che l'esempio linguistico proposto sia adeguato, paritario, inclusivo, e che risponda alle necessità della realtà in cui viviamo, che è composta da persone differenti. Il software è uno strumento che sostiene questa volontà, offrendo concretamente soluzioni inclusive a testi che di natura non lo sono.

Professoressa Cerquitelli, ci sono probabilità che un progetto come E-Mimic apra la strada, in futuro, a un'AI generativa progettata senza bias?

Progetti multidisciplinari come E-Mimic rappresentano passi importanti verso la creazione di modelli di intelligenza artificiale generativa con strategie di mitigazione dei bias. Sebbene eliminare completamente le distorsioni dai modelli sia una sfida complessa e richiederà ancora diversi anni di ricerca, E-Mimic potrebbe rappresentare un'iniziativa utile per delineare strategie, buone pratiche e linee guida facilmente replicabili per favorire la diffusione di un numero sempre crescente di modelli di AI generativa con distorsioni via via sempre ridotte. Si contribuirebbe così al progresso tecnologico e sociale, con conseguenze positive per la nostra società.