Prossima

La conoscenza si forma attraverso le parole. Con il glossario di Prossima inGenere vuole comporre un lessico minimo del mondo digitale. Molte espressioni ormai entrate nell'uso infatti restano spesso opache nel significato, il nostro obiettivo è quello di renderle più trasparenti. Oggi parliamo di dataset

Dataset

3 min lettura
Credits Unsplash/Anton Maksimov
glossario dataset

Prestito integrale dall'inglese derivato dall'unione dei due termini data, dati, e set, insieme, raggruppamento; in italiano non ha ancora un uso consolidato paragonabile a quello di database, registrato nei principali repertori lessicografici già a partire dal 1979. Nella nostra lingua il termine figura al momento all'interno del Dizionario di economia e finanza di Treccani, dove è stato inserito nel 2012 con grafia in forma separata (data set).

Rispetto a database, di più largo uso, dataset può essere, ancora a buon diritto, considerato un termine specialistico legato all'ambito dell'informatica, e indica un insieme di dati organizzati in forma relazionale inseriti all'interno di una struttura tabellare, dove di solito ogni colonna rappresenta una variabile, e ogni riga corrisponde a un'osservazione o un valore. 

All'interno di un dataset, i dati sono organizzati in modo tale per cui, per ciascuna variabile, sono elencati i valori corrispondenti. Il termine dataset viene talvolta usato anche per fare riferimento ai dati contenuti in un insieme di tabelle strettamente correlate, corrispondenti a un particolare esperimento o evento. Normalmente i dati raccolti in un dataset sono di tipologia grezza (in inglese, "raw"), molto vasti e strutturati per poter essere letti ed elaborati da un algoritmo.

La forma più comune tramite la quale organizzare i dati di un dataset è un foglio di calcolo (file Excel) oppure un file CSV, acronimo inglese che sta per "comma-separated values", valori separati da una virgola, un formato costituito da un file di testo utilizzato per l'importazione e l'esportazione di tabelle di dati. Un dataset può essere creato manualmente, attraverso software come Excel, oppure in maniera semiautomatica o automatica; in questi ultimi due casi, si avvale del supporto di applicazioni web. Può essere salvato sia localmente, all'interno di un singolo dispositivo, sia all'interno di un cloud.

La creazione di un dataset può avvenire tramite diverse fonti, ad esempio un sondaggio o un esperimento, e i dataset possono essere utilizzati per diversi scopi, come la visualizzazione di dati, oppure per condurre analisi statistiche o allenare algoritmi di intelligenza artificiale. Spesso, se i dati contenuti in un dataset vengono raccolti in maniera non significativa dal punto di vista statistico, i risultati prodotti dagli algoritmi allenati a partire da tale dataset possono contenere dei bias, cioè delle distorsioni; per questo motivo, è importante sia sviluppare algoritmi in grado di evidenziare ed eliminare i bias, sia utilizzare tecniche di raccolta dati che ne minimizzino la produzione. 

Diversi dataset possono essere combinati e collegati tra loro per creare una struttura di raccolta dati più complessa, che prende il nome di database. Quando un dataset cresce in termini di dimensioni e complessità, al punto che il volume dei dati non è più gestibile da programmi di elaborazione dati convenzionali, dal concetto di dataset si passa a quello di big data

Nell'ambito dei cosiddetti open data, raccolte di dati pubbliche e accessibili, il dataset è l'unità di misura minima per indicare le informazioni contenute in un archivio di dati. Attualmente, una delle raccolte più ampie di dataset è quella contenuta nel portale della Commissione europea data.europa.eu, che ne raggruppa più di un milione.  

Per approfondire

Consulta tutto il glossario