Prossima

La conoscenza si forma attraverso le parole. Con il glossario di Prossima inGenere vuole comporre un lessico minimo del mondo digitale. Molte espressioni ormai entrate nell'uso infatti restano spesso opache nel significato, il nostro obiettivo è quello di renderle più trasparenti. Oggi parliamo di big data

Big data

3 min lettura
Credits Unsplash/Anton Maksimov
glossario big data

Prestito integrale dall'inglese, composto dall'aggettivo big, grande, e data, dati, che indica quantità di dati talmente estese e variegate da richiedere l'utilizzo di tecnologie come l'intelligenza artificiale per essere processate e gestite. 

Nell'uso comune, il significato di big data è spesso ambivalente, in quanto viene impiegato per descrivere sia la tipologia di dati sia le tecniche per processarli. Rimane non chiarissima anche l'origine dell'espressione, che inizia a essere utilizzata in maniera massiccia nell'ambito dell'informatica agli inizi degli anni duemila, quando la quantità di dati generata dagli utenti con l'utilizzo di internet e applicazioni web come Facebook e YouTube è aumentata in maniera esponenziale e si comincia a comprenderne il valore e la necessità di archiviarli con strumenti appositi – come Hadoop, un software sviluppato nel 2005.

Infatti, sebbene le origini dei grandi dataset, e quindi la necessità di archiviare grandi quantità di dati per analizzarle, risalgono già agli anni sessanta e settanta, con i primi data center (centri di elaborazione dati), è con l'espansione del traffico web e degli acquisti online che aziende come Amazon, Yahoo ed eBay hanno iniziato ad analizzare i comportamenti degli utenti – come le percentuali di clic e le parole chiave usate nelle ricerche – per fornire risposte più mirate ai loro bisogni.

In questo modo, venivano aggregate enormi quantità di dati, che, rispetto ai dati tradizionali, numerici e strutturati, erano dati di tipo non strutturato, e necessitavano quindi di strumenti appositi per essere immagazzinati e analizzati.

Questa necessità è cresciuta ulteriormente con l'avvento dei social media e ancor più quando il numero di dispositivi mobili (cellulari, tablet) nel mondo ha superato quello dei computer, dando così accesso, oltre che a dati sul comportamento (behavioural data), anche a informazioni come la geo-localizzazione o la salute delle persone – pensiamo, per esempio, alle applicazioni per contare il numero dei passi giornalieri.

Nel dibattito pubblico si è parlato di big data in scandali come quello che ha coinvolto la società Cambridge Analytica nel 2018 per l'uso improprio di dati degli utenti dei social media con fini di propaganda politica.

big data vengono solitamente definiti tali in base a tre caratteristiche, classificate come le 3 "v": volume, varietà e velocità.

La principale caratteristica dei big data, che vengono raccolti in molteplici modi, grazie ad esempio alle transazioni bancarie, ai sistemi IoT (Internet of Things), ai social media, è il loro volume: l'ordine di grandezza dei big data è quello dei petabyte, che corrispondono a più di un milione di gigabyte, e degli exabyte (più di un miliardo di gigabyte), rispetto ai dispositivi personali, come PC e cellulari, che sono in grado di immagazzinare al massimo centinaia o migliaia di gigabyte.

La varietà definisce i formati in cui sono disponibili i dati. Tradizionalmente, per essere raccolti all'interno di un database, i dati dovevano essere strutturati, mentre i big data comprendono anche dati semistrutturati e non strutturati. Esempi di questi ultimi due tipi sono testi, audio e video, che richiedono un'ulteriore elaborazione per ricavarne significato. 

Infine, la velocità dei big data descrive il tempo in cui vengono acquisiti, elaborati e consultati dataset di grandi dimensioni, processi che sono diventati, appunto velocissimi.

I big data hanno moltissime applicazioni: dall'industria all'agricoltura, dalle vendite al settore pubblico e bancario, a quello dei trasporti e della formazione. E se, in ambiti come quello della salute, l'utilizzo dei big data può avere effetti positivi, il fatto stesso di creare, archiviare, aggiornare, indicizzare e copiare i dati richiede risorse che consumano enormi quantità di energia e che hanno quindi un enorme impatto sull'ambiente.

Per approfondire

Big data: definizione, benefici e sfide, infografica del Parlamento europeo

Big data nel Cambridge English Dictionary

Breve storia dei big data, Enterprise big data framework

Cosa sono i big data secondo Oracle

I big data secondo Google Cloud

How Ibm uses big data, LinkedIn.com

Consulta tutto il glossario