
Nel precedente articolo abbiamo visto il primo tipo di analisi dei big data: l’analisi descrittiva. In questo ci focalizzeremo sul secondo tipo di analisi, ossia l’analisi diagnostica.
Dopo averne dato una prima definizione, vedremo alcune tecniche utilizzate per la sua efficace realizzazione e successivamente vedremo alcuni consigli su come effettuarla al meglio.
Per analisi diagnostica si intende:
una forma di analisi anticipata che esamina dati o contenuti per rispondere alla domanda “Perché è successo?”.
In altre parole, si pone l’obiettivo di approfondire i dati per tentare di comprendere le cause di eventi e comportamenti.
È caratterizzata da tecniche quali drill-down, data discovery, data mining e correlazioni.
Per rendere più chiara l’idea, ipotizziamo che un’azienda voglia determinare l’andamento delle vendite di un suo prodotto A nell’anno trascorso.
Viene scoperto che il fatturato del prodotto è calato del 10% e il direttore vendite vuole, giustamente, conoscerne le cause.
Procederà cercando di capire cosa abbia causato la riduzione del fatturato del prodotto e per farlo potrà utilizzare le varie tecniche esposte poc’anzi.
Vediamole un po’ meglio.
Correlazione
La prima tecnica di maggior impatto è la correlazione.
Studiare la correlazione significa investigare l’esistenza di un legame per cui a variazioni di un fenomeno corrispondono variazioni dell’altro fenomeno secondo una determinata relazione. La correlazione si avvale della regressione, che permette di quantificare, tramite una funzione, la relazione presente tra le variabili di studio.
È fondamentale nel business trovare i prodotti o tipologie di clienti e vendite correlati tra loro per capire i risultati ottenuti, e successivamente per migliorarli.
Se vogliamo scoprire a cosa è dovuto il calo di fatturato del prodotto A, occorre capire da cosa le vendite del prodotto sono influenzate.
Se il prodotto A è un bene alimentare, ad esempio, probabilmente sarà più o meno condizionato dalle seguenti variabili:
- Periodo dell’anno;
- Luogo di produzione, lavorazione o coltivazione;
- Pubblicità sui social media;
- Marchio;
- Prezzo.
- Clima.
Per ognuna di queste variabili si identifica se essa è più o meno correlata rispetto alle vendite del prodotto attraverso metodi statistici, che ne determinano un valore compreso tra -1 e 1.
Più il valore trovato sarà vicino a 1 e più si intende che quella variabile è correlata alle vendite.
E ciò significa che all’aumentare del valore della variabile le vendite aumenteranno di conseguenza e viceversa se dovessero scendere.
Mentre se la correlazione è vicino a 0 e meno la variabile sarà correlata alle vendite del prodotto.
Quindi all’aumentare della variabile analizzata non per forza si implica l’incremento delle vendite: si dice che non c’è correlazione tra la variabile e le vendite e perciò la correlazione è nulla o molto vicina a zero.
Invece, se la correlazione è vicina a -1 significa che all’aumentare del valore di una variabile il valore delle vendite diminuisce e viceversa.
Tengo a precisare che spesso le relazioni tra un fenomeno e un altro possono risultare più complesse e non rappresentate solamente da una retta come abbiamo visto (quelle sopra sono rette di regressione lineare).
Ci possono essere situazioni più complesse dove la relazione tra le variabili è non lineare (regressione non lineare).
Ad esempio, se il prodotto A è un’anguria il periodo dell’anno influenza molto le vendite.
La relazione tra le vendite e il periodo dell’anno non ha un andamento lineare, ma piuttosto simile a quello raffigurato nella figura seguente.
Viceversa, per la pubblicità sui social media. Se si investe in pubblicità si avranno risultati maggiori nelle stagioni estive anziché in quelle invernali. Questo ti fa capire che la variabile periodo dell’anno è più rilevante rispetto alla variabile pubblicità sui social media.
In questo caso la correlazione tra vendite e pubblicità sui social media otterrà un valore più basso del periodo dell’anno e probabilmente vicino allo zero, perché poco influenzabile.
Il risultato potrebbe essere opposto se considerassimo il prodotto A come un abbigliamento intimo. La pubblicità sui media potrebbe incrementare anche significativamente le vendite di un prodotto, indipendentemente dal periodo dell’anno in cui viene fatta pubblicità.
Nei due esempi appena proposti invece è valido affermare che essi possiedono correlazione negativa tra prezzo e vendita: se il prezzo dell’anguria o dell’intimo dovesse risultare molto alto le vendite sarebbero con molta probabilità decisamente basse, mentre una diminuzione del prezzo incrementerebbe le vendite. (È bene tenere a mente che questo ragionamento non vale per tutti i tipi di prodotto, ci sono altre variabili in gioco da considerare).
In ogni modo, in una determinata situazione, la correlazione aiuta a stabilire quali di queste variabili influenzano maggiormente il fenomeno studiato, al fine di comprendere perché un certo andamento è effettivamente accaduto.
Data Discovery
Una seconda tecnica utilizzata dall’analisi diagnostica è la Data Discovery, ossia la scoperta dei dati.
Nella scoperta dei dati, gli esseri umani, o alcuni tipi di tecnologie di intelligenza artificiale, esaminano i dati da varie fonti e cercano di estrarre informazioni importanti o significative da tali dati, per garantire supporto alle decisioni aziendali.
Molti esperti vedono il data discovery molto simile al data mining, tanto che possono essere considerati come sinonimi in certe situazioni, in quanto si prefiggono lo stesso obiettivo.
Gli strumenti di scoperta dei dati utilizzano una varietà di metodi come mappe di calore, tabelle pivot, grafici a torta, grafici a barre e mappe geografiche per aiutare gli utenti a raggiungere i loro obiettivi.
La scoperta dei dati è riconosciuta come tecnica di analisi dei dati aziendali critici a causa dell’aumento dei big data. Queste tecniche e strumenti di scoperta dei dati aiutano l’analista a comprendere questo elevato quantitativo di dati.
In alcuni casi però, l’analista potrebbe trovare difficile comunicare cosa ha scoperto ai decisori aziendali.
La comunicazione può essere facilitata attraverso tools di visualizzazione dei dati e dalla tecnica del drill down, che permettono una più semplice interpretazione dei dati analizzati.
Drill-down
Il drill down è una funzionalità che porta l’utente da una visualizzazione più generale dei dati a una più specifica con un clic del mouse.
Si chiama “drill-down” perché consente all’utente di approfondire i livelli più specifici dei dati o delle informazioni da analizzare.
Ad esempio, un report che mostra le entrate delle vendite per regione o stato può consentire all’utente di selezionare una regione o uno stato, fare clic su di esso e vedere le entrate delle vendite per paese o città all’interno di tale stato (lo possiamo vedere nell’immagine successiva: i puntini blu indicano i luoghi di vendita di un prodotto esaminato in Italia).
In questo modo è possibile capire inizialmente dove il prodotto A è maggiormente venduto, e nel tempo, dove tale diminuzione è avvenuta.
Si potrebbero fare ulteriori analisi, cercando di studiare tutte le variabili che influenzano il prodotto, e identificare quella o quelle che ne hanno causato la maggior riduzione del fatturato.
Se il prodotto A a è un bene alimentare, la riduzione delle vendite potrebbe essere stata causata da un aumento del prezzo nella catena di fornitura, oppure da condizioni climatiche sfavorevoli che hanno danneggiato i raccolti.
Le ipotesi possono essere tante: analisi accurate garantiscono con maggiore probabilità di trovare una risposta accettabile al “Perchè è successo?”.
Un software che aiuta in questo tipo di operazione e facilita alla visualizzazione dei dati è Tableau, molto diffuso nel settore della business intelligence.
Con Tableau si possono vedere le vendite per regione, tipologia di cliente, tipologia di prodotto e visualizzare tutte le informazioni che si hanno a disposizione in un’unica videata chiamata dashboard.
Per maggiori informazioni, guarda questo video.
Ora mostro un video di Tessa Jones, data scientist che ci spiega cos’è l’analisi diagnostica e ci fa un esempio di applicazione:
Spunti per un’analisi diagnostica efficace
Per eseguire un’analisi diagnostica tieni a mente quanto segue:
1) Identifica qualcosa che vale la pena investigare.
Il primo passo di esecuzione dell’analisi diagnostica è trovare qualcosa che valga la pena investigare.
In genere questo è qualcosa di significativo, come un calo delle vendite o una perdita di un cliente, ma potrebbe anche essere un aumento inaspettato delle prestazioni.
Indipendentemente da ciò, il cambiamento che si sta cercando di diagnosticare dovrebbe essere raro in quanto l’analisi dei dati volatili è un esercizio inutile.
2) Esegui l’analisi.
L’analisi diagnostica può essere tanto semplice quanto la ricerca di una singola causa principale: cioè le vendite sono diminuite lo scorso mese perché le registrazioni di nuovi clienti non erano disponibili.
Analisi più complesse, tuttavia, possono richiedere più serie di dati e la ricerca di una correlazione e un’analisi di regressione, al fine di individuare la relazione che sussiste tra le variabili studiate.
Quello che stai cercando di ottenere in questa fase è trovare una relazione statisticamente valida tra due insiemi di dati, dove l’aumento (o la caduta) in uno causa un aumento (o una caduta) in un altro.
Tecniche più avanzate in quest’area includono il data mining e la scoperta dei dati (data discovery), ma la ricerca di correlazione e la regressione sono un ottimo punto di partenza.
3) Filtra in modo selettivo le tue diagnosi.
Mentre può essere interessante il fatto che una varietà di fattori abbia contribuito a un cambiamento nelle prestazioni, non è utile elencare tutte le possibili cause in un rapporto.
Invece un analista dovrebbe mirare a scoprire il singolo, o al massimo due fattori più influenti nel problema diagnosticato.
In aiuto a ciò, si possono utilizzare tecniche di visualizzazione dei dati e il drill down.
4) Indica chiaramente la tua conclusione.
Infine, un rapporto diagnostico deve arrivare a una conclusione chiara e concisa.
Per raggiungere tale risultato è necessario:
– identificare il problema che si sta diagnosticando,
– dichiarare perché si pensa che sia successo,
– fornire le prove a supporto.
Occorre considerare che l’analisi diagnostica viene effettuata tramite un processo iterativo e continuativo.
Non avviene in fasi sequenziali, ma è più facile che le tecniche elencate si intreccino e vengono utilizzate a supporto l’una dell’altra, per dare maggiore significato ai dati analizzati.
Una volta conclusa l’analisi diagnostica, lo step successivo rappresenta la creazione di un modello predittivo, fase fondamentale dell’analisi predittiva.