La conoscenza si forma attraverso le parole. Con il glossario di Prossima inGenere vuole comporre un lessico minimo del mondo digitale. Molte espressioni ormai entrate nell'uso infatti restano spesso opache nel significato, il nostro obiettivo è quello di renderle più trasparenti. Oggi parliamo di natural language processing

Natural language 
processing

L'elaborazione del linguaggio naturale (traduzione dall'inglese natural language processing, abbreviato in NLP), è un ramo dell'intelligenza artificiale che ha al centro l'interazione fra macchine e linguaggio umano (cioè il linguaggio naturale); combina modelli statistici e di machine learning con la linguistica computazionale, cioè quella branca della linguistica che si occupa di tradurre i modelli del linguaggio umano in programmi eseguibili dai computer, per consentire alle macchine di leggere, riconoscere e analizzare il linguaggio umano (scritto e parlato), e di generare a loro volta testi parlati e scritti.

In italiano l'espressione è entrata come neologismo nel dizionario Treccani nel 2023, non come prestito integrale dall'inglese, ma tradotta. 

Le prime versioni di NLP, sviluppate a partire dagli anni Cinquanta, corrispondevano al tentativo di formalizzare, all'interno dei computer, le regole del linguaggio naturale, attraverso sistemi codificati manualmente. 

Un approccio incompleto che non diede risultati soddisfacenti, perché non teneva conto dell'ambiguità, dell'irregolarità e della variabilità che caratterizza il linguaggio umano a tutti i livelli – lessicale, morfologico, sintattico, semantico: dalle eccezioni grammaticali alle variazioni nella struttura delle frasi, dalle espressioni idiomatiche alle metafore, fino al sarcasmo. Aspetti che per le macchine è particolarmente difficile classificare.

A partire dagli anni Ottanta e Novanta, ha preso piede l'approccio statistico all'NLP: si è cominciato, cioè, a costruire modelli statistici della lingua a partire dai corpora linguistici, collezioni di grandi dimensioni di testi orali o scritti prodotti in contesti comunicativi reali e conservati in formato elettronico. Questo approccio permette di suddividere i dati di testo scritto e di linguaggio parlato in modo tale che abbiano senso per un computer, attraverso diverse tecniche.

Alcuni esempi sono il riconoscimento vocale, (speech recognition), usato per tradurre il linguaggio naturale parlato in dati di testo, in modo tale da renderlo intellegibile alle macchine; l'etichettatura delle parti del discorso, (o tagging grammaticale), che si occupa di determinare la funzione delle parole all'interno di un testo, etichettandole come nomi, verbi, aggettivi, ecc.; il riconoscimento delle entità denominate, (named entity recognition), che serve a identificare parole o frasi assegnandogli un'entità corrispondente (luogo, persona, animale, ecc.).

A partire dal 2010, i sistemi di natural language processing utilizzano algoritmi di machine learning e le reti neurali: sfruttando il cosiddetto apprendimento profondo (deep learning), le macchine sono in grado di "imparare" mentre processano informazioni, e di estrarre, classificare ed etichettare elementi di testo e dati vocali in maniera automatica.

Questa tecnologia è alla base dei large language models (modelli linguistici di grandi dimensioni) come ChatGPT, sviluppato dalla società statunitense OpenAI, che utilizzano l'intelligenza artificiale e la statistica per prevedere la forma finale di una frase sulla base delle porzioni esistenti, generando testi in modo automatico. Si parla, in questo caso, di natural language generation (NLG). 

Essendo allenati su enormi quantità di dati, i large language models sono in grado di produrre testi di forma e qualità praticamente indistinguibili da quelli che produrrebbe un essere umano.

Altri esempi di applicazione dell'NLP sono il rilevamento dello spam e l'applicazione di filtri nelle email, la traduzione automatica, gli assistenti virtuali (Siri, Alexa, ecc.), i chatbot.

Uno dei principali problemi nell'NLP è legato ai bias, cioè ai pregiudizi impliciti contenuti nei dati a partire da cui gli algoritmi di apprendimento automatico vengono allenati. Ne è un esempio il caso del 2015 che ha coinvolto Amazon: il programma di NLP utilizzato dalla società per la selezione del personale discriminava le donne, in quanto sottorappresentate nel dataset che era stato messo insieme per addestrarlo.

Riferimenti

Linguaggio naturale nell'Enciclopedia della matematica, Treccani

Natural language processing nell'Enciclopedia Britannica

Natural language processing come neologismo, Treccani

Cos'è il Natural language processing secondo IBM

Sei esempi reali di Natural language processing, Expert.ai

Consulta tutto il glossario


Source URL: https://www.ingenere.it/prossima/natural-language-processing