• Home
  • Chi sono
  • Risorse
  • Contatti
  • Approfondimenti
  • Cerca nel sito

Lorenzo Govoni

Business e Tecnologia

  • Big Data
  • Business
  • Excel
  • Intelligenza Artificiale

Il processo di estrazione dei dati: il Data Mining

Data Mining

Il costante aumento della quantità dei dati prodotta quotidianamente e l’elevata crescita delle capacità di calcolo dei computer sono due fattori chiave che hanno contribuito allo sviluppo di nuove metodologie di analisi dei dati. Al giorno d’oggi, avere dati non è più un problema (basta pensare alla ricchezza delle sorgenti di dati accessibili sul web), il problema è cercare di utilizzarli, estrarne le informazioni. 

Spesso i dati, sia che si riferiscano all’attività giornaliera dell’azienda, sia che si riferiscano alla clientela, sia che si riferiscano al mercato o alla concorrenza, si presentano in forma eterogenea, ridondante e non strutturata. 

Tutto ciò fa sì che gli strumenti tradizionali siano in grado di analizzire solo una piccola parte di questi dati. I principali motivi risultano essere:

  • Difficoltà ad operare su grandi quantità di dati (in quanto richiedono operazioni di campionamento con conseguente perdita di informazioni).
  • Richiesta frequente di valori di tipo quantitativo (mentre i prodotti venduti, le caratteristiche della clientela, ecc … sono dati di tipo qualitativo).
  • Richiesta di personale tecnico sia per il loro utilizzo che per l’interpretazione dei risultati.

     

Da qui una tecnica che si è sviluppata molto negli ultimi anni per far fronte all’esigenza di sfruttare l’elevato numero di informazioni sempre crescente che si ha a disposizione e per sopperire alle mancanze dei sistemi di analisi tradizionali è il Data Mining.

Il Data Mining è un campo di ricerca che è nato intorno agli anni ‘90 attraverso l’integrazione di alcune aree quali la statistica, l’intelligenza artificiale e il machine learning. Se volessimo dare una definizione protremmo dire che:

Il Data Mining è il processo di esplorazione ed analisi, per mezzo di sistemi automatici e semi-automatici, di grandi quantità di dati al fine di trovare modelli (o pattern) dai dati ed utilizzarli per un determinato scopo.

In un precedente articolo avevamo visto che lo scopo dei Big Data è quello di estrapolare informazioni in tempi ragionevoli e con risorse limitate. Tale estrapolazione viene eseguita con le tecniche del Data Mining, che permettono l’estrazione di pattern e conoscenze dai dati esaminati. 

Il termine mining fa riferimento all’estrazione proprio come accadeva nelle miniere vere e proprie, dove quello che veniva estratto, invece dei dati, era il carbone.

 

 

Un pattern è il risultato dell’estrazione dei dati. Indica una struttura, un modello, o, in generale una rappresentazione sintetica dei dati. La cosa importante è che il pattern sia:

  • comprensibile, da un punto di vista semantico e sintattico, affinchè l’utente lo possa interpretare;
  • potenzialmente utile, affinchè l’utente lo possa comprendere;
  • valido sui dati con un certo grado di confidenza;
  • precedentemente sconosciuto.
 
 

Perché il Data Mining è importante oggi

Il Data Mining viene utilizzato in ambito scientifico per facilitare la raccolta, la classificazione e la ricerca di correlazione di dati.

Da un punto di vista imprenditoriale, invece, le imprese utilizzano sempre di più questi dati per prendere decisioni strategiche e creare valore. Per ottenere tale risultato è fondamentale ricavare le informazioni chiave, che permettono di creare conoscenza.

Ad esempio, tramite tecniche di Data Mining, un’azienda è in grado di scoprire che il prodotto da essa commercializzato, e che genera più fatturato, è più acquistato prevalentemente da clienti donne, giovani e single. 

Di conseguenza, l’azienda modificherà la propria attività per ottenerne il massimo beneficio, ad esempio promuovendo maggiormente prodotti che interessano a tale tipologia di clientela, facendo ricerca di mercato, ed entrando in nuovi settori concorrenti.

La conoscenza così acquisita permette di convogliare in una direzione o nell’altra (e nella loro interezza) le strategie di un’azienda.

 

 

Modelli di Data Mining

Per ottenere reali benefici finali (siano essi di natura meramente commerciale, scientifica o facenti parte di qualunque altro campo) è indispensabile utilizzare tecniche di Data Mining ben precise e utili agli scopi prefissati. 

Esse si possono suddividere in due modelli:

1) Descrittivi: rilevano similarità o raggruppamenti condivisi nei dati storici per determinare le ragioni del successo o dell’insuccesso, come raggruppare i clienti in base alle preferenze dei prodotti.

2) Predittivi: questa metodologia va più in profondità e si pone l’obiettivo di classificare gli eventi in futuro o stimare risultati sconosciuti. La modellazione predittiva aiuta a scoprire informazioni su come evitare la perdita di clienti, e come predire il comportamento di acquisto degli stessi.

La scelta o meno di questi modelli viene effettuata a seconda del tipo di dati che si vogliono analizzare e dal tipo di pattern che si vuole estrarre dai dati.

I dati che si vogliono analizzare possono assumere diverse forme: testi, numeri, mappe, audio, video, e-mail e così via.

Facendo riferimento al tipo di pattern, i principali che possono essere estratti dai dati sono i seguenti (ovviamente, questo non è un elenco esaustivo):

  • Cluster: raggruppano gli elementi di un insieme, a seconda delle loro caratteristiche, in classi non assegnate a priori.
  • Modelli di classificazione: consentono di derivare un modello per la classificazione di dati secondo un insieme di classi assegnate a priori. Un tipo di classificatori sono gli alberi decisionali che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un evento.
  • Regole di associazione: consentono di determinare le regole di implicazione logica presenti nella base di dati, quindi di individuare i gruppi di affinità tra oggetti.
  • Modelli di Previsione: Le tecniche di data mining sono progettate per spiegare o comprendere il passato (ad esempio perché un aereo si è arrestato inaspettatamente) o per prevedere il futuro (ad esempio, prevedere se domani ci sarà un terremoto in un dato luogo).

Per ognuno di questi pattern vediamo un esempio nella tabella sottostante.

 

Il processo di ricerca di nuova conoscenza dai dati

Quando si parla di Data mining è opportuno tenere a mente che esso è solamente uno degli step di ricerca di nuova conoscenza dai dati (definito Knowledge Discovery in Databases, KDD). 

Infatti, esistono altre fasi fondamentali che sono usate ad integrazione dei modelli di Data Mining (secondo la rappresentazione di Fayyad, Piatetsky-Shapiro and Smyth – 1996). Tali fasi sono:

1) Selezione dei dati (Data Selection): la selezione del set di dati richiede la conoscenza del dominio dal quale i dati sono presi. La rimozione di dati non correlati tra loro dal set di dati permette una riduzione dello spazio di ricerca durante la fase data mining che si traduce in una diminuzione del tempo di analisi.

2) Pre-processamento dei dati (Data preprocessing): questa fase consiste nel pulire le informazioni, rimuovendo il “rumore” o altre inconsistenze che potrebbero causare problemi al processo di analisi dei dati. Inoltre provvede ad esplorare e preparare i dati per gli step successivi.

3) Trasformazione dei dati (Data Transformation): i dati sono trasformati e consolitati in formati adatti all’analisi delle tecniche di Data Mining. In questa fase viene ridotta la varietà dei dati preservando allo stesso tempo la qualità degli stessi. L’informazione viene organizzata, cambiata da un tipo all’altra e nuovi attributi “derivati” sono definiti.

4) Data Mining: utilizzo di alcune tecniche di Data Mining (algoritmi) per analizzare i dati e scoprire modelli interessanti o estrarre conoscenza interessante da questi dati.

5) Valutazione (Evaluation): lo step finale è la documentazione e interpretazione dei risultati raggiunti dalle fasi precedenti. Può succedere di dover tornare alle fasi precedenti per raffinare la conoscenza acquisita, o trasformare la conoscenza secondo le esigenze più richieste dall’utilizzatore.

 

Rappresentazione grafica delle fasi del Knowledge Discovery in Databases

 

E’ importante sottolineare che non si dovrebbe considerare il Data Mining come un’entità separata e autonoma perché il pre-processamento e valutazione finale sono ugualmente essenziali.

 

Applicazioni di Data Mining

Il Data Mining viene utilizzato nel settore finanziario, nel marketing e nel manufacturing. Alcuni esempi in questi campi sono:

  • l’apprendimento automatizzato: tramite le reti neurali identificano un certo pattern al cui interno sono presenti elementi con relazioni precise fra loro.
  • Disposizione merce: permette di identificare i prodotti comprati assieme da un numero sufficientemente elevato di clienti.
  • Direct marketing: per ridurre, ad esempio, il costo della pubblicità via posta definendo l’insieme dei clienti che, con maggiore probabilità, compreranno un nuovo prodotto di telefonia.
  • Individuazione di frodi: per predire l’utilizzo fraudolento di determinate situazioni (ad esempio delle carte di credito).
  • Individuazione dell’insoddisfazione del cliente: per predire clienti propensi a passare a un concorrente.
  • Raggruppamento di documenti: per trovare sottogruppi di documenti che sono simili sulla base dei termini più rilevanti che in essi compaiono.
  • Segmentazione del mercato: per suddividere i clienti in sottoinsiemi distinti da utilizzare come target di specifiche attività di marketing.
 

Vantaggi del Data Mining

Infine vediamo i principali vantaggi di utilizzo delle metodologie di Data Mining:

  • Poter analizzare sia dati quantitativi, qualitativi che testuali;
  • Non richiede ipotesi a priori da parte del ricercatore che sta eseguendo l’analisi;
  • Possibilità di elaborare un numero elevato di variabili e osservazioni;
  • Utilizzare algoritmi ottimizzati per minimizzare il tempo di elaborazione;
  • E’ in grado di garantire un’interpretazione semplice del risultato;
  • Permette una visualizzazione chiara dei risultati.

Ti è piaciuto l’articolo? Fammi sapere nei commenti cosa pensi del Data Mining.

 

  • Text mining: il processo di estrazione del testo
    Text mining: il processo di estrazione del testo
  • Data warehouse: cos'è e come migliora il processo di reporting e di analisi
    Data warehouse: cos'è e come migliora il processo di…
  • Il tipo di analisi dei dati più semplice: l'analisi descrittiva
    Il tipo di analisi dei dati più semplice: l'analisi…
  • 15 formati di file più utilizzati nell’analisi dei dati
    15 formati di file più utilizzati nell’analisi dei dati
Share
Pin
Share
Tweet

Big Data Data Mining

  • Home
  • Archivio
  • Risorse
  • Newsletter
  • Cerca nel sito

Copyright © 2021 · Lorenzo Govoni - Privacy Policy