#IORESTOACASA e CAPISCO I NUMERI .

Aspettiamo tutti i giorni con fiducia il comunicato delle 18, con la speranza che i nostri sforzi di distanziamento sociale abbiano un effetto.

Iniziamo quindi dall’ultimo aggiornamento della Protezione Civile: 

Una situazione a cui nessuno pensava di arrivare, numeri che se non compresi possono spaventare. Ci sono alcune domande che tutti ci poniamo:

  • E’ possibile prevedere quando finiranno i contagi?
  • Perché i decessi sono così alti in Italia?

Questo strano virus se combinato con dati, numeri, pareri esperti e previsioni possono portare ad un allarmismo da interpretazione.

E‘ per questo motivo che cercheremo di dare vita al nostro nome (Break In Data) fornendo qualche chiave di lettura dei dati, capendo come si uniscono le diversi fonti, se ci sono valori anomali e come approcciare analisi avanzate.

Lasciateci dire una cosa: fare previsioni è facile, parola di scienziati del dato (Data Scientist) che vivono questa sfida quotidianamente al cospetto dei relativi clienti.

La domanda da porsi è: esiste qualcosa che più di tutti rende difficile la costruzione di modelli predittivi? Noi rispondiamo così: non esiste modello matematico-statistico accurato dove il dato è sporco o non si parla.

#IORESTOACASA e CAPISCO I NUMERI .

Aspettiamo tutti i giorni con fiducia il comunicato delle 18, con la speranza che i nostri sforzi di distanziamento sociale abbiano un effetto.

Iniziamo quindi dall’ultimo aggiornamento della Protezione Civile: 

Una situazione a cui nessuno pensava di arrivare, numeri che se non compresi possono spaventare. Ci sono alcune domande che tutti ci poniamo:

  • E’ possibile prevedere quando finiranno i contagi?
  • Perché i decessi sono così alti in Italia?

Questo strano virus se combinato con dati, numeri, pareri esperti e previsioni può portare ad un allarmismo da interpretazione.

E‘ per questo motivo che cercheremo di dare vita al nostro nome (Break In Data) fornendo qualche chiave di lettura dei dati, capendo come si uniscono le diversi fonti, se ci sono valori anomali e come approcciare analisi avanzate.

Lasciateci dire una cosa: fare previsioni è facile, parola di scienziati del dato (Data Scientist) che vivono questa sfida quotidianamente insieme ai nostri clienti.

La domanda da porsi è: esiste qualcosa che più di tutti rende difficile la costruzione di modelli predittivi? Noi rispondiamo che non esiste modello matematico-statistico accurato dove il dato è sporco o non si parla.

I DATI SI PARLANO ?

La comprensione delle fonti che abbiamo a disposizione risulta uno dei primissimi passi da seguire quando si vogliono fare analisi dei dati. Dall’arrivo del Coronavirus, siamo abituati a rimbalzare dai numeri forniti con grande sforzo dalla Protezione Civile, a quelli validati dell’Istituto Superiore di Sanità.

Per capire come unirli, guardiamo ad uno dei dati a cui siamo più sensibili: i numero di decessi.

Qualcosa non torna, il divario è troppo ampio. Proviamo a vedere i giorni precedenti:

L’Istituto Superiore di Sanità valida i numeri della Protezione Civile e per questo motivo potrebbe necessitare di due giorni per elaborare i dati. Per conferma, osserviamo quindi anche la rilevazione del 02 Aprile:

Sembra che le due fonti si parlino e possiamo dire di aver ricondotto due diverse fonti di dati. Siamo partiti da considerazioni abbastanza semplici, ma che comunque non vanno date per scontate.

I DATI SI PARLANO ?

La comprensione delle fonti che abbiamo a disposizione risulta uno dei primissimi passi da seguire quando si vogliono fare analisi dei dati. Dall’arrivo del Coronavirus, siamo abituati a rimbalzare dai numeri forniti con grande sforzo dalla Protezione Civile, a quelli validati dell’Istituto Superiore di Sanità.

Per capire come unirli, guardiamo ad uno dei dati a cui siamo più sensibili: i numero di decessi.

Qualcosa non torna, il divario è troppo ampio. Proviamo a vedere i giorni precedenti:

L’Istituto Superiore di Sanità valida i numeri della Protezione Civile e per questo motivo potrebbe necessitare di due giorni per elaborare i dati. Per conferma, osserviamo quindi anche la rilevazione del 02 Aprile:

Sembra che le due fonti si parlino e possiamo dire di aver ricondotto due diverse fonti di dati. Siamo partiti da considerazioni abbastanza semplici, ma che comunque non vanno date per scontate.

COSA E’ SUCCESSO IL 10 MARZO ?

Guardando l’andamento giornaliero dei casi totali dei contagiati, salta subito all’occhio uno strano andamento nel 10 Marzo, dove il valore assunto dalla curva risulta nettamente inferiore rispetto agli altri giorni (valore evidenziato in giallo).

Confrontiamo i nuovi casi relativi ai dati del 9 e 10 Marzo per cercare di comprendere se ci sono stati andamenti anomali in qualche Regione.

Abbiamo segnato in rosso due dati che possiamo ritenere anomali, sia rispetto ai valori assunti nei giorni a ridosso delle due date, sia rispetto alla considerazione di un trend in costante aumento nella prima decade di Marzo:

  • La Lombardia presenta un numero di nuovi casi positivi pari a 322 il 10 Marzo rispetto ai 1.280 del giorno precedente
  • ll Piemonte alla stesso modo presenta un dato probabilmente sporco per il 9 Marzo, dove riscontriamo un indicazione di -10 persone identificate come nuovi casi positivi

COSA E’ SUCCESSO IL 10 MARZO ?

Per accedere al resto dell’analisi e visualizzare correttamente i grafici ti invitiamo a passare alla versione desktop del sito. Grazie!

UNO SGUARDO AL PASSATO.

Nell’analisi precedente abbiamo parlato di fonti dati diverse. Ora cerchiamo di capire rispetto alla situazione attuale, come si comportano i trend e gli andamenti a confronto con gli anni passati. Per fare questo l’ISTAT risulta essere un’ulteriore fonte di dati per analisi di confronto con i dati storici. 

Il totale delle morti ISTAT nel 2020 è più alto del trend degli ultimi 5 anni (2015-2019): c’è il Coronavirus e ce lo aspettavamo. Ma siamo sicuri che la differenza di decessi sia spiegata dal COVID-19 per tutte le regioni italiane?

Abbiamo analizzato i dati al 21 Marzo. Nel grafico sottostante trovate la differenza di decessi del 2020 contro la media degli ultimi 5 anni (barra blu) e i dichiarati COVID (barra arancione)

Le barre blu, ovvero la statistica che rappresenta la differenza tra morti 2020 rispetto a media degli ultimi 5 anni, sono spesso superiori delle barre arancioni (dichiarati morti per COVID-19). Come si spiegano questi decessi? I decessi dichiarati per COVID-19 sono sottostimati?

Analizziamo un po’ insieme gli stessi dati. Sopra il grafico c’è un menù a tendina e selezionando le casistiche riportate di seguito cerchiamo di porci le domande giuste:

Liguria

Nonostante 152 dichiarati morti per COVID-19 la Liguria presenta meno decessi degli ultimi 5 anni (-8). Nonostante il Coronavirus in Liguria sono decedute 8 persone in meno rispetto alla media degli ultimi 5 anni.

Sardegna

La Sardegna presenta 85 morti in più rispetto agli anni precedenti ma solo 4 vengono associate a cause di COVID-19. L’elevato numero di morti di differenza tra 2020 e quinquennio 2015-2019 ci farebbe presupporre del solito impatto da Coronavirus, ma ciò non viene dichiarato. Come mai?

Lazio

Al contrario della Sardegna, il Lazio dichiara 60 morti per COVID-19, nonostante solo 6 decessi in più rispetto agli anni scorsi. E’ possibile che disposizioni di contenimento abbiano rallentato altre cause di mortalità (es. incidenti stradali)? 

Abbiamo visto qualche caso, ce lo aspettavamo. L’importante è individuarlo e tenerlo monitorato. 

Allo stesso tempo, ve li togliamo dall’analisi del grafico sottostante dove è possibile osservare la seguente statistica: percentuale di decessi spiegati dal COVID-19 sul calcolo della differenza del 2020 con i 5 anni precedenti (es. vengono dichiarati 10 decessi per COVID-19 alla data di riferimento, allo stesso tempo ISTAT dichiara 100 morti nel 2020 e 80 morti di media negli ultimi 5 anni. La percentuale di decessi spiegati sarà quindi del 50%).

In quest’ottica, osserviamo come il Trentino spieghi il 92,3% delle casistiche di decesso, mentre Sardegna e Sicilia spiegano rispettivamente solo 4,7% e 10,5%.

Anche questa volta c’è qualcosa da approfondire…

LE REGIONI SI ASSOMIGLIANO?

Nota Bene: questa analisi potrebbe richiedere competenze di analisi avanzata, in quanto si parlerà di algoritmi di Cluster Analysis. Cercheremo comunque di semplificare il più possibile e rendere comprensibile a tutti queste informazioni.

Siamo partiti da una domanda: quali sono le regioni che possono considerarsi simili rispetto alla situazione COVID-19 (aggiornamento 5 Aprile 2020)?
Per fare questo abbiamo deciso di descrivere le regioni secondo i seguenti indicatori:

  • Percentuale di casi totali su popolazione ISTAT 2019
  • Percentuale tamponi su popolazione ISTAT 2019
  • Percentuale di ospedalizzati su attualmente positivi
  • Percentuale decessi su totale casi
  • Percentuale guariti su totale casi

A questo punto abbiamo scelto un algoritmo non supervisionato come la Cluster Analysis. Il perché è semplice: l’algoritmo combina i dati in ottica multivariata e li raggruppa in cluster (segmenti), cercando di accorpare le regioni più simili tra loro ed allo stesso tempo cercando di creare macro gruppi differenti.

Di seguito è riproposta una Cluster Analysis integrata in strumenti di Data Visualization (costruita attraverso la Pittaforma SAS Viya). Per semplificare l’analisi, abbiamo suddiviso la dashboard in 3 sezioni (sotto ogni sezione una breve spiegazione per aiutarne la comprensione):

  • I numeri relativi alla Cluster Analysis
  • La distribuzione della popolazione ISTAT 2019
  • Un contenitore a schede dove sono rappresentate le diverse dimensioni dei cluster, individuati tramite grafici a bolle

Focus 1: click sulla voce ID Cluster 1

Ogni linea rappresenta una regione e viene descritta secondo i 5 valori che le regioni misurano al 5 Aprile 2020. Per il Cluster 1 quindi vediamo una alta percentuale di decessi e di ospedalizzazioni

Focus 2: Grafico a bolle (click su 3° descrizione cluster)

Il grafico a bolle rappresenta i 3 cluster con sintetizzati i valori medi della percentuale di ospedalizzati rispetto ai guariti. Le regioni del cluster 3 presentano mediamente un tasso di guariti sul totale dei casi maggiore delle altre regioni

Focus 3: Grafico a bolle (doppio click una bolla)

Se facciamo doppio click su una bolla possiamo vedere le regioni del cluster selezionato. Nell’esempio del 3° Descrizione Cluster abbiamo selezionato il cluster 3 vedendo come Friuli e Umbria guidano il tasso di guariti

Per concludere l’analisi abbiamo cercato di descrivere i cluster secondo le metriche estratte:

  • Cluster 1 = regioni con livelli alti relativi a decessi e contagi
  • Cluster 2 = regioni con livelli mediamente contenuti rispetto a tasso di contagio e percentuale di decessi sul totale dei casi
  • Cluster 3 = regioni che con livelli alti di guarigione nonostante un tasso di contagio alto

VUOI APPROFONDIRE?

Invia una mail all’indirizzo: covid@bidcompany.it

VUOI APPROFONDIRE?

Invia una mail all’indirizzo: milo.faccenda@bidcompany.it