
Nell’articolo “I 13 nuovi lavori che domineranno il mercato nei prossimi anni”, vengono elencati quali potrebbero essere le professioni che si svilupperanno nei prossimi anni.
Tra le 3 già disponibili e che avranno un aumento di richiesta in futuro c’è il Big Data Analyst, ossia l’analista dei big data.
Infatti, analizzare efficacemente la sempre più crescente quantità di dati che si forma giorno dopo giorno permette di creare valore che può essere sfruttato dalle aziende per migliorare il processo decisionale e, di conseguenza, il vantaggio competitivo dell’aziende stesse sul mercato.
A seconda del problema che si cerca di studiare, l’analisi dei big data porta ad approfondire 4 tipologie di analisi:
1) Analisi descrittiva che permette di rispondere alla domanda “cosa è successo?”
2) Analisi diagnostica che permette di rispondere alla domanda “perché è successo?”
3) Analisi predittiva che permette di rispondere alla domanda “cosa potrebbe accadere in futuro?”
4) Analisi prescrittiva che permette di rispondere alla domanda “come dovremmo rispondere a quei potenziali eventi futuri?”
Qua e là sul web, mi sono imbattuto in articoli in cui al posto dell’analisi diagnostica è presente l’analisi automatica: personalmente e come mostrato nel video sotto, credo che quest’ultima sia una conseguenza dell’analisi prescrittiva, che puoi vedere con maggiore dettaglio qua.
In questo articolo mi concentrerò sull’analisi descrittiva.
Let’s start.
Cos’è l’analisi descrittiva?
Per analisi descrittiva si intende:
“la trasformazione dei dati grezzi in una forma che li renda facili da capire e interpretare, riorganizzare, ordinare, e manipolare per generare informazione utile“
In altre parole, l’analisi descrittiva è una fase preliminare dell’elaborazione dei dati che crea un riepilogo dei dati storici per fornire conoscenza e quasi sempre prepara i dati per ulteriori analisi.
Questa forma di analisi risulta la più semplice e diffusa al giorno d’oggi e si pone l’obiettivo di:
- Visualizzare i dati nel contesto corretto.
- Identificare le informazioni rilevanti nei dati.
- Valutare la qualità dei dati.
- Riconoscere le ipotesi e i limiti di quanto ricavato.
L’analisi descrittiva è utile perché ci consente di apprendere dai comportamenti del passato e di capire in che modo potrebbero influenzare i risultati futuri. La previsione di quello che potrebbe effettivamente accadere invece è studiata dall’analisi predittiva.
L’analitica descrittiva raramente tenta di indagare o stabilire relazioni di causa ed effetto. Poiché questa forma di analisi quasi mai sonda oltre l’analisi di superficie, la validità dei risultati è più facilmente implementata.
Alcuni fonti di dati comuni utilizzati nell’analisi descrittiva sono osservazioni, case study e sondaggi. Pertanto, la raccolta e l’interpretazione di grandi quantità di dati possono essere coinvolte in questo tipo di analisi.
Quando utilizzare l’analisi descrittiva
Secondo l’Analytics for the Customer-Driven Supply Chain, l’analisi descrittiva andrebbe utilizzata quando si ha bisogno di capire a livello aggregato cosa sta succedendo nell’azienda e quando si vuole riassumere e descrivere diversi aspetti del business.
Ad esempio, essa può essere utilizzata per approfondire:
- eventi passati come vendite regionali, perdita dei clienti o successo delle campagne di marketing.
- tabulazione delle metriche sociali come i mi piace di facebook, i tweet o i follower (nel caso di business digitale).
- segnalazioni di tendenze generali come destinazioni di viaggi caldi o tendenze di notizie.
- report aziendali che forniscono semplicemente una revisione storica delle operazioni, delle vendite, dei dati finanziari, dei clienti e delle parti interessate di un’organizzazione.
Vediamo ora come l’analisi descrittiva è solitamente impiegata insieme ad altre metodologie.
L’analisi esplorativa dei dati e la statistica descrittiva
Quando si procede all’analisi dei dati si possono scoprire fatti già conosciuti, e di solito con un dettaglio maggiore, oppure delle relazioni tra i dati non conosciute (e quindi scoperta di nuove informazioni).
Nel primo caso rientriamo nell’analisi descrittiva vera e propria, che descrive quanto accaduto.
Nel secondo caso, invece, rientriamo dentro l’analisi esplorativa dei dati (Exploratory Data Analysis o EDA): essa non si focalizza solamente sulla comprensione dei dati, piuttosto si pone l’obiettivo di cercare le scoperte, le tendenze, le correlazioni o le relazioni tra i dati per generare idee o ipotesi.
Indipendentemente dall’analisi, i dati utilizzati possono essere definiti come:
- Discreti e categorici: rappresentati da particolari valori finiti o infiniti in un dato insieme di dati numerici (ad esempio, il numero di personale utilizzato) o categorico (ad esempio, maschio o femmina).
- Continui: dati che risultano quando un’osservazione può assumere qualsiasi valore entro un certo intervallo (ad esempio, letture di temperatura).
Questi dati vengono riassunti e rappresentati tramite la statistica descrittiva. Quest’ultima è un tipo di statistica che da un insieme di dati analizzati riassume e interpreta le proprietà dello stesso insieme di dati.
I principali metodi utilizzati dalla statistica descrittiva sono:
- frequenze, distribuzioni e tabulazioni: strumenti statistici che vengono utilizzati per esaminare il conteggio delle occorrenze di valori all’interno di un particolare gruppo o intervallo.
- tendenza centrale, media, mediana e moda dei dati: non sono altro che altri strumenti statistici che permettono di riepilogare i dati in un singolo valore tipico o rappresentativo di tutti i valori nel set di dati analizzato.
- Intervallo, quartili, varianza o deviazione standard: ci mostrano quanto sono sparsi i valori e quanto essi differiscono dal valore medio.
Le statistiche descrittive sono molto importanti perché se presentassimo semplicemente i nostri dati grezzi sarebbe difficile rendere visibile ciò che i dati mostrano, specialmente se ce ne sono tanti.
Le statistiche descrittive ci consentono quindi di presentare i dati in un modo più significativo, che consente un’interpretazione più semplice dei dati.
Infatti, l’obiettivo della statistica descrittiva è quello di ricavare da un insieme di dati raccolti in tabelle e grafici (troppo numerosi per poter essere esaminati singolarmente) alcune informazioni significative per il problema studiato.
Ed è per questo motivo che quando si parla di analisi descrittiva si fa riferimento spesso anche alla statistica descrittiva.
Vediamo ora un processo di analisi descrittiva.
Il processo di analisi descrittiva
Chi esegue l’analisi descrittiva (solitamente un analista di business o lo scienziato dei dati) dovrebbe cercare di riconoscere prima un fenomeno di interesse.
A volte il fenomeno emerge dai dati; a volte nasce dall’esperienza e a volte deriva da lacune nella ricerca esistente.
Non tutti i fenomeni o le domande sui fenomeni sono ben articolati o possono essere risolti con dati esistenti o raccolti e, spesso, chi analizza i dati deve ripensare, riconsiderare e rivalutare la domanda di studio fino a quando è ben articolata, concettualmente chiara e fattibile.
Una volta che un fenomeno è stato identificato, l’analista deve considerare pienamente il fenomeno in questione, determinare quali caratteristiche sono più salienti e definire costrutti rilevanti (misure) che rappresentino queste caratteristiche.
L’analisi dovrebbe concentrarsi sull’identificazione dei modelli nei dati che sono più importanti per comprendere “cosa è successo“.
Il lavoro dell’analista include la presentazione delle informazioni in un formato che sia facilmente comprensibile per un particolare pubblico.
Questo approccio all’analisi descrittiva è iterativo e richiede una riconsiderazione e una modifica man mano che avviene la comprensione del fenomeno e dello studio da parte dell’analista.
La categorizzazione dei clienti sulla base di caratteristiche note è un semplice esempio di questo tipo di analisi, che guarda alle informazioni disponibili e le utilizza per ottenere una visione d’insieme o di dettaglio.
In questo caso il fenomeno di interesse è la clientela. Le caratteristiche più salienti possono essere il fatturato o la zona geografica trimestrale (o annuale) di ogni cliente.
Oppure posso considerare entrambe le caratteristiche definendo il fatturato per ogni zona geografica raggruppando le informazioni rispettivamente per cliente, al fine di identificare qual è la zona geografica dove ottengo maggior fatturato e da che clienti.
Le misure indicano come rappresentare le caratteristiche, quindi € se parliamo di fatturato o una regione o stato se parliamo di zona geografica.
Il passo successivo è quello di trovare un’efficace rappresentazione: per questo esempio banale, si potrebbe utilizzare il diagramma di Pareto oppure le tabelle pivot in Excel, rappresentando le caratteristiche in una tabella e poi creando il grafico opportuno.
Infine, si procederà alla categorizzazione, suddividendo per classi o categorie i clienti che danno maggior fatturato da quelli nella media e con quei clienti che non sono indispensabili per l’azienda (stessa cosa per le zone geografiche, da quella che ha maggior numero di clienti o fatturato, a quelle che si potrebbero trascurare).
Il risultato ottenuto si confronterà con analisi precedenti se presenti, altrimenti le si utilizzeranno per confronti futuri, o per approfondimenti successivi.
Come riconoscere una buona analisi descrittiva
Siccome l’analisi descrittiva si prefigge lo scopo di presentare i dati in un formato che può essere facilmente compreso da un ampio pubblico, è bene che essa sia:
- Chiara: una buona rappresentazione si deve focalizzare su cosa sta cercando di descrivere, cioè il fenomeno di interesse.
- Dettagliata: dovrebbe fornire dettagli completi sul fenomeno senza essere inutilmente complesso rispetto a concetti, dati, metodi o presentazioni.
- Accurata: l’analisi deve riflettere concetti chiave, incorporare una varietà di prospettive e approcci, non distorcere i dati e sarà accettato da ampie comunità di professionisti, imprenditori e responsabili politici perché riflette l’osservazione del mondo reale.
- Ragionevole e comprensibile a tutti: dovrebbe utilizzare concetti e metodi appropriati, facendo affidamento su misure pertinenti. Inoltre, dovrebbe collegare le caratteristiche salienti di un fenomeno in un modo che possa essere facilmente interpretato dal pubblico previsto.
Per rendere comprensibile e chiaro il risultato dell’analisi a chiunque ci si può avvalere di grafici, tabelle, istogrammi.
Nel mondo di oggi sono indispensabili strumenti di visualizzazione dei dati, che sono a supporto dell’analisi dei dati. Per questo motivo l’analisi descrittiva deve ottenere sostegno anche dalle metodologie di visualizzazione dei dati (Data Visualization).
La visualizzazione dei dati rappresenta i dati in un contesto visivo, rendendo esplicite le tendenze e i modelli inerenti ai dati. Tali schemi e tendenze potrebbero non essere espliciti nei dati testuali.
Le forme di visualizzazione più comuni sono sotto forma di grafici, tabelle, grafici a linee, istogrammi, grafici a torta e visualizzazioni 3D.