• Home
  • Chi sono
  • Risorse
  • Contatti
  • Approfondimenti
  • Cerca nel sito

Lorenzo Govoni

Business e Tecnologia

  • Big Data
  • Business
  • Excel
  • Intelligenza Artificiale

Una breve introduzione al modello di regressione di Poisson

regressione di poisson

Gli statistici hanno inventato molte distribuzioni per i conteggi, tra cui la distribuzione di Poisson.

La distribuzione di Poisson è una delle distribuzioni più diffuse e che è fondamentale capire per comprendere come un modello di regressione di Poisson ragiona.

In quest’articolo vediamo prima come funziona la distribuzione di Poisson, e come essa è la base per creare un modello di regressione di Poisson.

Ovviamente per la sua comprensione, sono necessarie alcune basi di statistica e teoria della probabilità.

 

Distribuzione di Poisson

La distribuzione di Poisson non è altro che la distribuzione di probabilità di una variabile causale di Poisson.

Per verificare che una serie di eventi segue una distribuzione di Poisson, si cerca di verificare l’esperimento di Poisson.

Un esperimento di Poisson è un esperimento statistico che ha le seguenti proprietà:

  • I risultati dell’esperimento possono essere classificati come successi o fallimenti.
  • È noto il numero medio di successi (λ) che si verificano in una regione specificata.
  • La probabilità che si verifichi un successo è proporzionale alla dimensione della regione.
  • La probabilità che un successo si verifichi in una regione estremamente piccola è praticamente zero.

Ipotizzando di condurre un esperimento di Poisson, in cui la media di successi che si verificano sia λ, possiamo scrivere la distribuzione di Poisson nella seguente forma:

Con

  • e, la base del logaritmo naturale, pari a circa 2.71828;
  • λ, il numero medio di successi che si verificano in una determinata regione;
  • k, il numero effettivo di successi che si verificano in una determinata regione.
  • P (x = k), la probabilità di Poisson che esattamente k successi si verificano in un esperimento di Poisson, quando il numero medio di successi è λ.

Qui, λ è anche chiamato parametro della distribuzione di Poisson (in alcuni libri di testo viene indicato con μ). Quando cambiamo λ, cambiamo la probabilità di vedere diversi numeri di eventi in un intervallo.

La regione può essere tempo, spazio, dimensioni della popolazione, distanza o area, ma è spesso il tempo e viene indicato con la lettera t. Se il valore dell’esposizione non è dato, si assume che sia uguale a 1.

Vediamo subito un esempio per capirci meglio.

 

Esempio di distribuzione di Poisson

Ipotizziamo che il numero medio di case vendute dalla compagnia XYZ sia di 2 case al giorno. Qual è la probabilità che esattamente 3 case saranno vendute domani?

Possiamo subito verificare che l’esempio rappresenta un esperimento di Poisson in quanto sappiamo quanto segue:

  • λ = 2, dal momento che 2 case sono vendute al giorno, in media.
  • k = 3, dal momento che vogliamo trovare la probabilità che 3 case saranno vendute domani.

Inseriamo questi valori nella formula di Poisson come segue:

Quindi, la probabilità di vendere 3 case domani è 0,180, ossia poco meno del 20%.

 

Modello di regressione di Poisson

Se i nostri dati non seguono una distribuzione di Poisson non ha senso costruire un modello di regressione di questo tipo. Questo perché tutte le ipotesi fatte precedentemente verrebbero meno.

Dopotutto, il modello di regressione di Poisson è un tipo di analisi di regressione che utilizza dati numerici, come conteggi.

La regressione di Poisson ci aiuta ad analizzare sia i dati di conteggio che i dati di frequenza, permettendoci di determinare quali variabili esplicative (valori X) hanno un effetto su una data variabile di risposta (valore Y, il conteggio o una frequenza).

Ad esempio, la regressione di Poisson potrebbe essere applicata da un negozio di alimentari per capire meglio e prevedere il numero di persone in fila in una cassa.

Questo tipo di modello rientra nella classe dei modelli lineari generalizzati (o generalized linear model, GLM) in quanto la variabile di risposta segue una distribuzione diversa da quella normale.

È possibile rappresentare il modello di regressione di Poisson in più modi. La forma più generale è la seguente (per semplicità in tutte le formule seguenti, non vengono considerati i residui, ossia gli errori che ogni modello di regressione dovrebbe considerare nell’analisi):

Dove

  • y: è la variabile di risposta che è un valore intero positivo (e che segue la distribuzione di Poisson);
  • α e β: sono coefficienti numerici. Alfa è l’intercetta, e viene a volte rappresentata da β0;
  • x è la variabile predittiva.

Un’altra rappresentazione diffusa del modello, ricavabile dall’espressione precedente, è la seguente:

I coefficienti del modello, alfa e beta, vengono solitamente stimati con quella che è definita stima di massima verosimiglianza (MLE), spesso grazie a software che riducono il tempo computazionale e facilitano la risoluzione della funzione (si veda wikipedia per maggiori informazioni in merito).

 

Modello di regressione di Poisson in funzione del tempo

Ipotizzando la regione come periodo temporale possiamo dire che λ è pari a y/t. In altri termini studiamo il valore medio di successi, che dipende dal valore ottenuto dalle variabili di risposta in un periodo temporale, come ad esempio il numero medio di case vendute in un giorno, il numero di incidenti in una settimana, e così via.

Secondo questo aspetto, è possibile riscrivere il modello di regressione di Poisson in funzione di lambda:

Che equivale a dire (siccome il logaritmo naturale (ln) è la funzione inversa dell’esponenziale):

L’ultima espressione presuppone che il logaritmo dei valori attesi (media) possa essere modellato in una forma lineare da alcuni parametri sconosciuti.

Riassumendo, per un modello di regressione di Poisson si ha che:

  • la variabile di risposta Y segue una distribuzione di Poisson;
  • la media è uguale alla varianza;
  • il log del tasso medio (λ), è una funzione lineare di X.

 

Esempio modello di regressione di Poisson

Vediamo un semplice esempio.

È possibile prevedere il numero di difetti su un chip del computer appena prodotto, in base alle dimensioni fisiche del chip, il numero di componenti “transistor A” e “transistor B”.

Il numero di difetti sarà un numero intero e positivo (0, 1, 2, 3, ecc.), mentre la probabilità di ottenere un difetto si ipotizza sarà piccola.

 

 

La regressione di Poisson presuppone innanzitutto che il conteggio dei difetti abbia una distribuzione di Poisson. Questo fatto è abbastanza restrittivo perché la distribuzione di Poisson è un concetto matematico “puro” e i dati reali si possono discostare da distribuzioni matematiche.

Più i dati si discostano da una pura distribuzione di Poisson, meno accurato sarà il modello di previsione di regressione di Poisson risultante.

La regressione di Poisson crea essenzialmente un’equazione di previsione matematica in cui il log del conteggio da prevedere (numero dei difetti) è una combinazione lineare di pesi moltiplicati per le variabili di input.

A questo proposito, la regressione di Poisson è abbastanza simile alla regressione logistica. Trovare i pesi per la regressione di Poisson comporta la riduzione al minimo di una funzione di verosimiglianza log negativa.

 

Principali differenze con la regressione lineare

Come capire quando è più adatto un modello di regressione lineare rispetto ad uno di regressione di Poisson?

In primis, è possibile valutare:

  1. La distribuzione dei dati: se i dati seguono una distribuzione normale, come avviene più spesso, allora un modello di regressione di Poisson non è la soluzione più appropriata. Per questo tipo di distribuzione è più adatta una regressione lineare. Al contrario, se la distribuzione che seguono i dati è quella di Poisson, allora più adatto è il modello di regressione di Poisson.

  2. Il risultato che si vuole prevedere: Mentre con la regressione logistica è possibile stimare il risultato di una variabile binaria (Si/No, 0/1, ecc.) con la regressione di Poisson, invece di stimare la probabilità di accadimento di un evento, si tenta di stimare il tasso di accadimento di quell’evento. Tale valore viene solitamente denominato tramite la lettera greca lambda (λ).

    In altre parole, ciò significa stimare il numero di volte che quell’evento accada in un determinato periodo temporale, che si presume fisso. Solitamente non conosciamo λ, ma lo si vuole stimare.

 

 

Conclusione

In questo articolo abbiamo visto cos’è la distribuzione di Poisson e come essa è associata ad un modello di regressione lineare.

La regressione di Poisson è simile alla regressione logistica multinomiale in quanto la variabile dipendente può assumere solo valori interi non negativi, anche se con la regressione di Poisson non esiste un valore r predeterminato, cioè qualsiasi valore di conteggio è possibile.

Il modello visto è meglio utilizzato per eventi i cui dati tendono a seguire una distribuzione di Poisson.

Per maggiori informazioni consiglio la visione dei seguenti link in lingua inglese:

  • Video di regressione di Poisson per un corso di epidemiologia applicata;
  • Modelli di regressione di Poisson per dati di conteggio;
  • Esempio di modello di Poisson.
  • Introduzione alla funzione di massima verosimiglianza
    Introduzione alla funzione di massima verosimiglianza
  • Data Visualization: come rappresentare correttamente i dati
    Data Visualization: come rappresentare correttamente i dati
  • Simulazione Monte Carlo per determinare la durata attesa di un progetto
    Simulazione Monte Carlo per determinare la durata…
  • Gradient Boosting per problemi di classificazione
    Gradient Boosting per problemi di classificazione
Share
Pin1
Share
Tweet

Big Data Analisi dati

  • Home
  • Archivio
  • Risorse
  • Newsletter
  • Cerca nel sito

Copyright © 2021 · Lorenzo Govoni - Privacy Policy