
L’analisi tradizionale dei dati si basa sul modello relazionale in cui i dati sono memorizzati in tabelle (i cosiddetti dati strutturati).
Solo il 20% circa dei dati disponibili per le imprese si trova in dati strutturati, mentre l’altro 80% non è strutturato e solitamente è disponibile in testo libero (vedi fonte).
Se ci pensiamo un attimo, il testo è ovunque: dai libri ai materiali stampati, ai giornali, in Wikipedia e nei pacchetti office (Word, Excel, Powerpoint). Le persone parlano tra loro nei forum online, scrivendosi mail o rispondendo con commenti nei blog e nei gruppi di discussione, comunicando prevalentemente in forma scritta.
A livello di business, uno dei metodi per trarre beneficio da questo ammasso di dati testuali è utilizzare tecniche di text mining.
Giusto per fare un esempio, queste tecniche possono portare beneficio ai product manager o ai responsabili marketing.
Infatti, ognuno di questi ruoli può essere interessato a sapere cosa pensano i clienti dei loro prodotti e come i loro prodotti si confrontano con quelli dei concorrenti.
Tramite il text mining essi possono attingere a fonti come i social media o il testo dei sondaggi dei clienti, per poter estrarre queste informazioni al fine di migliorare le versioni future.
In questo articolo vediamo:
- cosa il text mining rappresenta;
- come funziona il processo del text mining;
- tecniche di text mining;
- le principali applicazioni utilizzate al giorno d’oggi;
- Vantaggi del text mining.
Incominciamo.
Cos’è il Text mining?
Il text mining si pone l’obiettivo di studiare metodi e algoritmi per estrarre automaticamente conoscenza da testo per classificare o raggruppare documenti in base ai contenuti.
Se volessimo darne una definizione, possiamo dire che il text mining è
La scoperta da parte di un computer di nuovi, in precedenza sconosciute informazioni, attraverso l’estrazione automatica di differenti documenti scritti (Hearst 2003).
Per natura è simile al data mining, anche se si concentra sul testo che in genere non è strutturato.
Il text mining viene solitamente impiegato quando si vuole ottenere:
- una revisione sistematica della letteratura, ossia effettuare una revisione automatica di una grande quantità di contenuti molto rapidamente;
- la scoperta di nuove conoscenze, per consentire ai ricercatori di stabilire connessioni e trarre conclusioni sul contenuto di una grande quantità di testo;
- la ricerca sulla linguistica computazionale, al fine di migliorare l’analisi, la comprensione e la generazione del linguaggio umano dal testo.
Negli ultimi anni è diventato più pratico e utilizzato anche in altri ambiti dai data scientist e altri analisti grazie allo sviluppo di piattaforme di big data e algoritmi di deep learning in grado di analizzare enormi serie di dati non strutturati.
Il processo del Text mining
Il text mining è spesso utilizzato congiuntamente e scambiato per sinonimo con la text analytics, o analisi del testo. Secondo questo approccio, i dati di testo (parole chiave, concetti, verbi, nomi, aggettivi, ecc.) vengono estratti tramite il processo di estrazione del testo e vengono successivamente utilizzati nella fase di text analytics per estrarre informazioni utili dai dati.
Per comprendere come tale processo funziona, supponi che ti venga fornito un set di dati relativo a delle descrizioni di prodotti. Successivamente ti viene chiesto di estrarre le caratteristiche dalle descrizioni fornite che possono influenzare una decisione di acquisto o meno.
Da dove partiresti?
Un’idea potrebbe essere quella di seguire i seguenti step:
1) Collezionare dati: questa prima fase prevede la raccolta e la selezione di documenti che possono essere utili per l’analisi successiva.
2) Pre-processamento del testo: adatta il testo grezzo in testo analizzabile. In particolare, le operazioni di pre-elaborazione e pulizia sono eseguite per rilevare e rimuovere le anomalie, in modo da poter catturare la vera essenza del testo disponibile e semplicemente per ridurre la dimensione del testo analizzato. In questa fase si applicano le fasi di
- Tokenizzazione, che permette di rompere una sequenza di caratteri in parole / frasi chiamati token;
- Filtraggio, al fine di rimuovere parti di testo non necessarie;
- Lemmatizzazione, che considera l’analisi morfologica delle parole, cioè raggruppando le varie forme flesse di una parola in modo che possano essere analizzate come una sola entità;
- Derivazione, ossia il processo mediante il quale si crea una forma (tema o parola) da una radice o da una parola preesistente.
3) Applicare le tecniche di text mining: Questa è la fase di maggior interesse, in cui i dati testuali (parole chiave, concetti, verbi, nomi, aggettivi, ecc.) sono estratti tramite le tecniche di estrazione del testo.
La scelta della tecnica appropriata per il text mining, a seconda dell’occorrenza, riduce il tempo e lo sforzo per trovare i modelli rilevanti per l’analisi e il processo decisionale.
Alla fine del processo potresti scoprire che una caratteristica di un prodotto non considerata potrebbe impattare e invogliare maggiormente ad un acquisto. O il contrario: l’analisi comunque dovrebbe essere approfondita per includere anche altre variabili d’influenza come il prezzo, la clientela, la stagionalità, ecc.
Tecniche di Text mining
Le tecniche di Text mining sono finalizzate a trovare le informazioni tematiche nascoste in un testo, per facilitare il processo di archiviazione e di costruzione di una mappa logica della conoscenza. Queste tecniche si basano su determinati algoritmi che selezionano le parti rilevanti di un documento ed eliminano quelle non rilevanti.
Tra le più diffuse si ha:
- Categorizzazione dei testi: rappresenta l’inizio del processo di analisi del testo tramite l’assegnazione di categorie predefinite a testo
libero. - Estrazione dell’informazione: è una tecnica che estrae informazioni significative da una grande quantità di testo. Solitamente queste informazioni vengono prese da documenti non strutturati e/o semi-strutturati leggibili da una macchina e tramutate in informazioni strutturate. Nella maggior parte dei casi questa attività riguarda l’elaborazione di testi in linguaggio naturale.
- Recupero delle informazioni: rappresenta l’insieme delle tecniche utilizzate per gestire la rappresentazione, la memorizzazione, l’organizzazione e l’accesso ad oggetti contenenti informazioni quali documenti, pagine web, cataloghi online e oggetti multimediali. È utilizzato anche dai motori di ricerca di Google e Yahoo per estrarre documenti da una ricerca sul web.
- Elaborazione del linguaggio naturale: si occupa dell’elaborazione e analisi di informazioni testuali non strutturate ed è spesso considerato sinonimo e utilizzato congiuntamente alle analisi di text mining.
- Clustering: è un processo non supervisionato per classificare i documenti di testo in gruppi simili definiti cluster. In un cluster sono raggruppati insiemi di testo che si riferiscono ad uno stesso argomento o parole chiavi identiche. Tale tecnica presuppone l’utilizzo di particolari algoritmi di clustering: uno molto diffuso è il k-mean.
- Riepilogo di testo: Il riepilogo del testo è il problema di creare un riassunto breve, accurato e scorrevole di un documento di testo più lungo.
- Analisi del sentimento: nota anche come Opinion Mining, questo metodo viene utilizzato per estrarre informazioni soggettive dal contenuto. Proprio come suggerisce il termine, ha a che fare con l’emozione, il sentimento. Fondamentalmente, per comprendere la risposta emotiva di un soggetto in un contesto.
Applicazioni di Text mining
Come accennato sopra le applicazioni di data mining si sono sviluppate molto negli ultimi anni. Attualmente possiamo trovare applicazioni di:
Gestione dei rischi
Indipendentemente dall’industria, un’analisi dei rischi insufficiente è spesso una delle principali cause di insuccesso. Ciò è particolarmente vero nel settore finanziario in cui l’adozione del software di gestione del rischio basato sulla tecnologia di text mining può aumentare notevolmente la capacità di mitigare i rischi, consentendo la gestione completa di migliaia di fonti e petabyte di documenti di testo e fornendo la possibilità di collegare insieme informazioni e essere in grado di accedere alle informazioni giuste al momento giusto.
Prevenzione della criminalità informatica
La natura anonima di Internet e le numerose funzionalità di comunicazione che ne derivano contribuiscono ad aumentare il rischio di crimini connessi a Internet. Oggi, l’intelligence di text mining e le applicazioni anti-crimine rendono la prevenzione del crimine su Internet più facile per qualsiasi impresa, forze dell’ordine o agenzie di intelligence.
Servizio clienti
Il text mining e l’elaborazione del linguaggio naturale sono applicazioni frequenti per l’assistenza clienti. Oggi, il software di analisi del testo viene spesso adottato per migliorare l’esperienza del cliente utilizzando diverse fonti di informazioni preziose come sondaggi, trouble ticket e note di chiamata del cliente per migliorare la qualità, l’efficacia e la velocità nella risoluzione dei problemi. L’analisi del testo viene utilizzata pure dai sistemi di intelligenza artificiale, quali i chatbots per fornire una risposta rapida e automatica al cliente, riducendo drasticamente la dipendenza dagli operatori di call center per risolvere i problemi.
Rilevamento di frodi tramite indagine di reclamo
L’analisi del testo è una tecnologia estremamente efficace in qualsiasi dominio in cui la maggior parte delle informazioni viene raccolta come testo. Le compagnie di assicurazione sfruttano le tecnologie di text mining combinando i risultati dell’analisi del testo con i dati strutturati per prevenire le frodi ed elaborare rapidamente le richieste.
Pubblicità contestuale
La pubblicità digitale è un campo di applicazione moderatamente nuovo e in crescita per l’analisi del testo. Qui, aziende come Admantx hanno reso il text mining il motore principale per il retargeting contestuale con grande successo. Rispetto al tradizionale approccio basato sui cookie, la pubblicità contestuale offre una maggiore precisione, preservando completamente la privacy dell’utente.
Business intelligence
Questo processo è utilizzato dalle grandi aziende per sostenere e supportare il processo decisionale. In questo caso, il text mining fa davvero la differenza, consentendo all’analista di saltare rapidamente alla risposta anche quando analizza petabyte di dati interni e open source. Una piattaforma adatta allo scopo è Cogito Intelligence Platform che è in grado di monitorare migliaia di fonti e analizzare grandi volumi di dati per estrarre da essi solo il contenuto pertinente.
Arricchimento del contenuto
Mentre è vero che lavorare con il contenuto del testo richiede ancora un po ‘di sforzo umano, le tecniche di analisi del testo fanno una differenza significativa quando si tratta di essere in grado di gestire in modo più efficace grandi volumi di informazioni. Le tecniche di text mining arricchiscono il contenuto, fornendo uno strato scalabile per taggare, organizzare e riepilogare il contenuto disponibile che lo rende adatto a una varietà di scopi.
Filtro antispam
L’e-mail è un modo efficace, veloce e ragionevolmente economico per comunicare, ma ha un lato oscuro: lo spam. Oggi, lo spam è un grosso problema per i fornitori di servizi Internet, in quanto risulta amplificato dagli elevati costi per la gestione dei servizi e l’aggiornamento hardware/software, mentre per gli utenti rappresenta un punto di ingresso per i virus. È possibile implementare tecniche di text mining per migliorare l’efficacia dei metodi di filtraggio basati su statistiche.
Analisi dei dati sui social media
Oggi, i social media sono una delle fonti più prolifiche di dati non strutturati; le organizzazioni hanno preso nota. I social media vengono sempre più riconosciuti come una preziosa fonte di informazioni sul mercato e sulla customer intelligence. Difatti, le aziende li utilizzano per analizzare o prevedere le esigenze dei clienti e comprendere la percezione del loro marchio. In entrambe le necessità, l’analisi del testo può essere analizzata sia analizzando grandi volumi di dati non strutturati, sia estrapolando opinioni, emozioni e sentimenti e le loro relazioni con marchi e prodotti.
Vantaggi del Text mining
Infine, vediamo i principali vantaggi di utilizzo delle metodologie di text mining:
- Risparmiare tempo e risorse ed è più efficiente rispetto ai cervelli umani.
- Aiutare a tenere traccia delle opinioni nel tempo;
- Aiutare a riassumere i documenti;
- Aiutare ad estrarre concetti dal testo e presentarlo in un modo più semplice;
- Essere utilizzato nell’analisi predittiva;
- Consentire un processo decisionale migliore e intelligente;
- Aiutare a risolvere i problemi di scoperta della conoscenza in diverse aree di business;
- Offrire risultati migliori più velocemente di qualsiasi altro strumento. Lo strumento di estrazione del testo viene utilizzato da organizzazioni di grandi e piccole dimensioni che sono organizzazioni basate sulla conoscenza.
Per maggiori approfondimenti consiglio la lettura dei seguenti articoli (in inglese):
- Breve sondaggio sul TM;
- Differenza tra TM e Text analytics;
- Cos’è il TM per il gruppo Cineca (italiano);
- Cos’è il TM (inglese);
- Tecniche e applicazioni di TM;
- Cosa devi sapere sul TM.