Tu sei qui

Impariamo a leggere i dati: come difenderci dalle statistiche?

Luglio 2022
Paolo Risso

Nella ricerca della verità di un fenomeno, raccogliere informazioni è il primo passo per costruire una solida conoscenza. Innanzi a fenomeni vasti e complessi, le informazioni che si possono raccogliere possono essere molto numerose, eterogenee fra loro, complesse, disorientando il ricercatore nel suo cammino di conoscenza. La statistica è una scienza che fornisce gli strumenti per governare questo caos informativo, permettendo di poter dare descrizione, attraverso una necessaria riduzione, e di poter trarre conclusioni valide ed utili.

Oggi viviamo immersi in una Infosfera (secondo l’espressione del filosofo Luciano Floridi) in cui in ogni secondo miliardi di dati legati alle attività umane e naturali sono prodotti e collezionati. Il dato e la statistica sono ubiqui e si ha la credenza che siano in grado di dare qualsiasi tipo di risposta e soddisfare ogni esigenza dell’umanità. Lo sviluppo dell’informatica e dell’intelligenza artificiale, sostenuti dalla statistica, hanno aperto la strada a mezzi “intelligenti” in grado di aiutare l’uomo, se non addirittura sostituirlo, in alcuni compiti quotidiani. 

È interessante osservare come l’attività umana sia stata accompagnata, sin dagli albori, dalla necessità di controllo e di governo, anche tramite la misurazione e il censimento delle risorse disponibili. Già in epoca preistorica abbiamo prova di oggetti incisi con tacche atte a contare; migliaia di anni dopo, nella Bibbia abbiamo testimonianza di differenti attività di censimento. L’interesse e la consapevolezza dell’importanza dei censimenti sono cresciuti col tempo: il Concilio di Trento del 1563 introdusse i registri parrocchiali per raccogliere le informazioni delle nascite, dei matrimoni e dei decessi.

Grazie alla disponibilità di queste informazioni, nel 1600 nasce la statistica, intesa all’origine come “aritmetica politica”, cioè come “l’arte di ragionare mediante le cifre sulle cose che riguardano il governo” (William Petty), con i primi esempi di statistica demografica già di un certo interesse: numerosità della popolazione di Londra, rapporto maschi/femmine nelle nascite, distinzione tra popolazione urbana e rurale. Si è concretizzata successivamente un'attenzione verso gli aspetti più disparati della vita, dalla stima di mortalità alla descrizione delle cose dello Stato (da cui anche il termine di statistica).

Successivamente, alla descrizione dei dati comincia ad essere associata una valutazione probabilistica (soprattutto in riferimento alla durata della vita) al cui sviluppo ha contribuito nell’Ottocento la divulgazione dei concetti di “variabilità biologica” e di "uomo medio".

Dal XX secolo si assiste a un fiorire di teorie e tecniche fondamentali per l'analisi e il confronto tra gruppi di dati in associazione a criteri di generalizzazione dei risultati. La velocità di calcolo raggiunta con l'introduzione del computer, essenziale per l'elaborazione di grandi masse di dati, ha contribuito in modo determinante allo sviluppo della statistica attuale.

Oggi i metodi statistici sono applicati ad ogni aspetto della conoscenza umana: biologia, economia, fisica, medicina, chimica, lettere, arti, processi industriali, sport, scienze sociali e comportamentali, archeologia. Questo perché sono un ottimo strumento per approfondire e migliorare la conoscenza di un fenomeno attraverso un procedimento metodologicamente corretto e riproducibile. Nel linguaggio comune numerosi aspetti di vita quotidiana vengono riproposti in veste statistica, anche se spesso in modo improprio, per esempio quando confondiamo dato e informazione.

Il “dato” è un termine ormai utilizzato quotidianamente nei mezzi di comunicazione di massa e nel dialogo abituale e come suo sinonimo spesso viene utilizzato il termine “informazione”. Dal punto di vista della teoria dell’informazione, questi due termini non sono sinonimi, ma sono relazionati da una Definizione Generale d’Informazione (GDI): i dati dovranno essere interpretati o manipolati per diventare informazione. Il dato, o variabile, è definibile come una rappresentazione oggettiva, non interpretata e limitata della realtà del fenomeno di interesse. Esiste un legame delicato fra il dato e l’informazione da esso veicolata. Il meccanismo per trarre informazione dai dati deve seguire un metodo di ricerca scientifico, grazie all’analisi statistica il dato si arricchisce di significato.

La ricerca statistica si caratterizza per la sistematicità del processo d’indagine e per la riproducibilità del metodo adottato. I principali approcci al processo d’indagine statistico sono: descrittivo, comparativo, speculativo.

Nel caso di studi comparativi o speculativi, le tappe principali del percorso di ricerca sono: la definizione degli obiettivi (ossia scegliere quale criterio possa spiegare una differenza tra due o più gruppi), l’individuazione del metodo di campionamento dei membri dei gruppi, l’individuazione di quali variabili studiare, la scelta del modello probabilistico più adatto a descrivere il fenomeno, la raccolta dei dati e la loro elaborazione, l’interpretazione dei risultati ottenuti e la loro comunicazione.

Il campionamento è necessario in quanto non è mai possibile raccogliere le informazioni di tutta la popolazione d’interesse in quanto si è vincolati da risorse limitate. Questo approccio introduce un’incertezza, ponderata, dovuta al fatto che le proprietà del campione estratto non sono uguali a quelle della popolazione da cui proviene. È quindi necessario introdurre un livello di incertezza, rappresentato dal P-Value, nelle conclusioni che si possono raggiungere.

L’approccio statistico richiede nuovi modi di pensare e di indagare: la scelta di un buon campione utilizzando una tecnica che non introduca errori, la selezione dei dati da raccogliere, come rappresentare e divulgare i risultati. Dietro ciascuno di questi passaggi possono nascondersi imprevisti capaci di annullare il valore del risultato ottenuto. Fondamentale è determinare quale test probabilistico sia più appropriato per la verifica delle ipotesi, ossia il razionale che giustifichi lo studio.

Il confronto tra campioni appartenenti a gruppi con caratteristiche differenti (ad esempio in ambito medico la risposta di soggetti trattati con una certa terapia rispetto a quelli trattati con una terapia differente) implica la verifica di un’ipotesi di base espressa come: “nessuna differenza statistica esiste tra i parametri dei gruppi e le eventuali differenze riscontrate sono giustificate dalla variabilità casuale dovuta a come sono stati selezionati i soggetti e raccolti i dati”. Tale ipotesi, che si definisce ipotesi zero, fa riferimento alla “popolazione” e non ai campioni da essa estratti, in quanto non siamo interessati ai campioni statistici di per sé ma ai risultati del loro confronto. Se è valida l’ipotesi zero i campioni non risultano differenziati e, fino a prova contraria, fanno parte della stessa popolazione per quanto riguarda il carattere esaminato.

Per quanto sembri assurdo, il processo di verifica di un’ipotesi si sviluppa correttamente rifiutandola quando si riscontrano i presupposti per non avvallarla. Il rifiuto dell’ipotesi zero permette di prendere in considerazione l’ipotesi alternativa, che sostiene l’esistenza di una differenza non casuale per il carattere esaminato tra i due gruppi confrontati.

Il processo di rifiuto dell’ipotesi zero viene accompagnato da un livello di probabilità di commettere un errore nel rifiutare l’ipotesi, detto P-Value. Ottenere dai test statistici un P-Value significativo è la condizione necessaria per poter veder riconosciuto dalla comunità scientifica il proprio lavoro e vederlo pubblicato. Tale “affanno” ha portato a coniare nel tempo la celebre frase “torturando i dati a sufficienza, si può far dire loro quello che si vuole”, facendo cadere dubbi sulla “sicurezza” di usare una soglia di significatività come garanzia della veridicità e riproducibilità del lavoro pubblicato, criteri fondamentali della ricerca scientifica.

Molti libri e intere sezioni di riviste si sono occupate di formare i fruitori dei lavori scientifici al fine di renderli consapevoli di questi rischi. La non riproducibilità di un risultato scientifico si traduce nell’impossibilità da parte di un ricercatore di riprodurre, e quindi confermare, i risultati pubblicati da un collega. 

Dietro questa difficoltà a riprodurre i risultati, senza cadere in dubbi legati a voler pubblicare risultati per opportunità economica o di prestigio, si cela la scelta di non esplicitare del tutto i metodi e passaggi che descrivono l’esperimento svolto come la scelta di una popolazione particolare rispetto ad una campionata casualmente o la non dichiarazione di tutti i passaggi d’elaborazione e pulizia dei dati.

Per porre rimedio a questo aspetto oggi sempre più riviste incoraggiano ad alcune pratiche come la condivisione del set di dati con i revisori e con i lettori della rivista, la condivisione del codice statistico utilizzato per elaborare i dati e la definizione di altri parametri statistici (come la potenza o il rischio di falso positivo). 

Sicuramente il problema della riproducibilità dell’esperimento è rilevante per chi fa ricerca. Il lettore o lo studente devono avere a mente questo aspetto per sviluppare un corretto senso critico.

Quanto esposto non deve screditare il valore della pubblicazione scientifica e il lavoro dei ricercatori, degli editori e dei revisori delle riviste scientifiche. Per affrontare la lettura di un articolo di ricerca nell’ambito della statistica è consigliabile seguire alcuni comportamenti utili a non travisare i risultati. 

Il primo aspetto da considerare, in caso si tratti di leggere un lavoro che citi altri studi, è la necessità di verificare i documenti originali per capire se quanto riportato rispetti il messaggio degli autori e per verificare se i risultati siano stati interpretati in maniera parziale.

Un aspetto importante da considerare è la numerosità del campione in esame. Al crescere della numerosità di un campione aumentano le risorse e le capacità necessarie per raccogliere, analizzare ed elaborare i risultati. Un autore deve bilanciare le proprie esigenze di ricerca con le risorse (limitate) a disposizione.  Un fenomeno che si osserva quando i campioni in esame sono “piccoli”, o sono formati selezionando i casi più “estremi”, è la “regressione verso la media”. Il primo a documentarla è stato Galton, nel 1800. Tutte le misurazioni sono composte da una parte vera e una parte di errore casuale. Quando le misurazioni effettuate portano a risultati “estremi” è probabile che siano in parte causati dal caso più che dal fenomeno di interesse, se si ripetesse infatti l’esperimento sarebbe altamente probabile osservare risultati meno estremi. Minore è la numerosità del campione, maggiore è la possibilità di osservare questo fenomeno.

La rappresentazione grafica dei risultati è un’alternativa efficace per spiegare e raccontare i risultati. I grafici possono essere strumenti di ragionamento o di razionalizzazione. Il messaggio trasmesso dai grafici corre il rischio di venire distorto per essere adattato alla visione del lettore o dell’autore, piuttosto che riflettere sul vero messaggio. L’uso di colori, di scale non appropriate può falsare le vere proporzioni dei fenomeni analizzati, facendo facilmente confondere il lettore. Il meccanismo di difesa che si può utilizzare è quello di ragionare sui numeri, cercando di valutare se le proporzioni raffigurate rispecchino davvero i valori indicati o cercando di capire se i dati mostrati, utilizzando altre fonti d’informazione, seguano davvero questi andamenti.

Il grafico qui riportato, che visualizza il consumo annuo nazionale medio di sigarette per individuo rispetto all’aspettativa di vita media nazionale, dati della World Health Organization, porterebbe spontaneamente a dire che il crescere del consumo di sigarette sia correlato con un aumento positivo dell’aspettativa di vita media. Questo potrebbe poi essere corroborato dall’analisi statistica di regressione sui dati, che infatti mostrerebbe una correlazione positiva e statisticamente significativa tra l’incremento del numero di sigarette consumate e l’aumento dell’aspettativa di vita. Tale risultato sarebbe paradossale ed andrebbe contro ogni convinzione fin qui avuta sul rapporto tra il fumo e la salute.

Il tranello di questo grafico, che introduce anche il problema che la correlazione non implica la causalità, deriva dal fatto che il grafico rappresenta insieme tutte le nazioni del mondo, senza dividerle per ricchezza pro capite. In questo modo si mescolerebbe l’effetto dell’alta mortalità, a prescindere dalle cause, presente nei paesi più poveri e la maggior aspettativa di vita per i cittadini dei paesi più ricchi, a prescindere delle patologie e dei comportamenti. In questo modo, la presenza di una “variabile nascosta”, e non rappresentata nel grafico, come la ricchezza pro capite media permette di generare un risultato formalmente statisticamente valido, ma erroneo. Quindi una correlazione fra due variabili dovrebbe essere considerata come punto di partenza per un’analisi scientifica corretta, non come punto di arrivo.

Se questi dati fossero stati utilizzati per produrre un lavoro scientifico, statisticamente formalmente valido, si potrebbe biasimare quindi l’autore di non aver compiuto le accurate analisi sui dati a disposizione, traendone conclusioni affrettate. Ci troveremmo davanti a errori sia metodologici, ignorare la variabile nascosta della ricchezza pro capite e quindi valutando erronee correlazioni, sia di campionamento, utilizzando i dati in proprio possesso male considerando equivalenti nazioni con profonde differenze economiche, sociali e politiche.

Il valore di un ricercatore, e di conseguenza del suo lavoro, è non solo la capacità di scoprire aspetti nuovi ma soprattutto, dopo aver ottenuto un risultato, avere il senso critico di rimetterlo in discussione, analizzandolo da altri punti di vista in modo da poter rafforzare le proprie convinzioni e risultati.

Il lettore invece, in questo frangente particolare, dovrebbe attenersi a due principi; da un lato sostenersi con quanto oggi è già di dominio pubblico, ossia il rapporto negativo fra fumo e salute, e dall’altro leggere nel grafico solo quanto esso rappresenta evitando di andare oltre la mera raffigurazione delle variabili.

Siamo immersi in un universo affascinante ma complesso, la statistica è oggi una scienza molto importante perché aumenta la capacità umana di “contare” e abilita l’uomo a fare inferenza permettendo di trarre indicazioni su fenomeni vasti, non osservabili o ponderabili direttamente. Di fronte al rischio di trovarsi innanzi ad errori e distorsioni, ripropongo le confortanti parole di John Henry Newman [1]: 

“Ciò che vorrei sollecitare in ognuno, qualunque possa essere la sua particolare linea di ricerca, – ciò che vorrei sollecitare negli uomini di scienza nei loro pensieri di teologia, – ciò che mi arrischierei di raccomandare ai teologi, quando la loro attenzione è attirata dall'oggetto di indagini scientifiche, – è una grande e ferma credenza nella sovranità della verità. L'errore può fiorire per un momento, ma alla fine prevarrà la verità”.

  

[1] J. H. Newman, Argomenti universitari. Discorso VIII, 1855.

Luglio 2022
Giuseppe Tanzella-Nitti
Ordinario di Teologia Fondamentale, Pontificia Università della Santa Croce

La data odierna di martedì 12 luglio 2022 è destinata a restare a lungo nella memoria degli scienziati come una delle grandi date dell’astrofisica. Sono state oggi diffuse dalla NASA, dall’ESA e dalla CSA, le tre agenzie spaziali statunitense, europea e canadese, le prime immagini a colori e i primi dati spettroscopici raccolti nelle settimane precedenti dal James Webb Space Telescope (JWST), il nuovo telescopio spaziale lanciato lo scorso 25 dicembre 2021. In anteprima, alcune ore prima delle comunicazioni ufficiali, era stato già mostrato l’ammasso di galassie SMACS 0723 nella costellazione del “Pesce volante”, situato lungo la direzione della stella HD 147980. Si tratta dell’immagine a più alta risoluzione nell’infrarosso mai ottenuta, che porta l’osservatore a circa 13 miliardi di anni fa, solo poche centinaia di milioni di anni dopo l’inizio dell’espansione dell’universo, da tutti conosciuto come Big Bang. Il campo dell’immagine, grande sulla volta celeste come un granello di sabbia tenuto alla distanza del proprio braccio, contiene centinaia, forse migliaia di galassie. Tanto questa immagine, quanto quelle degli altri 4 oggetti celesti impiegati come target e diffuse poche ore fa, sono davvero straordinarie. Oltre all’ammasso di galassie SMACS 0723 sono state pubblicate le fotografie della nebulosa nella costellazione della Carena e la nebulosa planetaria NGC 3132, oggetti relativamente vicini, dalla vivace fantasia cromatica, il “Quintetto di Stefan”, un gruppo di galassie in interazione ben noto agli astronomi da alcune generazioni, e lo spettro del pianeta extrasolare Wasp-96.

I siti web dove è possibile reperire informazioni dettagliate sugli strumenti a bordo del James Webb Space Telescope (JWST) e sui primi risultati che stanno giungendo da questo straordinario telescopio sono ormai numerosi e a tutti accessibili (ne riepiloghiamo alcuni al termine di queste righe). Chiunque potrà accedervi con poco sforzo. Come già accaduto per il telescopio Hubble (HST), anche per le osservazioni del Telescopio Webb vi saranno numerose ricadute sul piano mediatico e culturale, oltre che scientifico. Sono tre le considerazioni che catturano adesso la mia attenzione e che desidero condividere con voi.

smacs-0723
Migliaia di galassie nell’ammasso SMACS-0723 fotografate con la Webb’s Near Infrared Camera. L’immagine integra esposizioni a diverse lunghezze d’onda per un totale di 12,5 ore. L’ammasso centrale dista 4.6 miliardi di anni-luce. Le immagini curvate sono dovute a galassie più distanti, i cui raggi luminosi vengono deflessi dall’ammasso centrale. L’oggetto più distante nel campo è una galassia distante circa 13,1 miliardi di anni-luce.
Crediti NASA, ESA, CSA, STScI

La prima di esse è che colpisce il grande interesse con cui praticamente tutti gli organi di informazione hanno seguito il lavoro di JWST in queste ore, proponendo titoli assai significativi. Quasi tutti parlano con emozione della possibilità di osservare gli oggetti più lontani finora mai visti, poco dopo il Big Bang, più o meno all’epoca in cui la materia, disaccoppiatasi dalla radiazione, cominciava ad organizzarsi in macrostrutture che avrebbero dato origine ai primi clusters di galassie. È un “guardare verso le origini”, sottolineano in molti. Gli spettroscopi a bordo di JWST potranno poi esaminare un buon numero di atmosfere di pianeti extrasolari, contribuendo a farci capire quale percentuale di essi possiede condizioni simili a quelle della Terra, puntando ancora verso una domanda sulle origini, quelle della vita nel cosmo. Domande che continuano ad attrarre e spiegano perché anche il grande pubblico sta seguendo e seguirà con interesse le attività di JWST. Domande di portata filosofica, e in certo modo anche religiosa, oggi suscitate dalle scienze. Non perderanno mai di attualità. Se non ne parlano più i filosofi o i teologi saranno gli scienziati, come già accade, a tenerle vive.

Una seconda considerazione riguarda la capacità con cui noi esseri umani, in poco più di tre secoli dall’introduzione del metodo scientifico, siamo stati capaci di formulare teorie in grado di descrivere la dinamica dell’universo su larga scala, considerandolo come un unico oggetto di intelligibilità. Solo 250 anni dopo che Joseph-Louis de Lagrange risolveva il problema semplificato dei tre corpi mostrando le caratteristiche di equilibrio dinamico dei cosiddetti “cinque punti lagrangiani”, noi possiamo oggi collocare un telescopio da oltre 6 metri di diametro nel punto L2 del sistema composto dalla terra, dalla luna e dallo stesso JWST. Pochi decenni dopo che Albert Einstein formulava la teoria della Relatività generale, abbiamo più volte potuto verificarne la correttezza, come fa oggi l’immagine dell’ammasso di galassie SMACS 0723 fotografata da JWST mostrandoci le immagini deflesse dei raggi luminosi delle galassie più lontane, perché curvate dal campo gravitazionale delle galassie massicce al centro dell’ammasso.

Una terza considerazione, infine, riguarda l’estremo livello di precisione raggiunto dagli strumenti a bordo del JWST e dalle strutture elettromeccaniche che consentono a questi strumenti di funzionare. Abbiamo visto dispiegarsi i 18 elementi esagonali di berillio placcati di oro per comporre il grandioso specchio di oltre 6 metri di diametro e posizionarsi con precisione a un milione e mezzo di chilometri dalla terra. La tecnologia dello scudo termico consente agli strumenti di lavorare a bassissima temperatura nonostante l’esposizione alle radiazioni solari. La MIRI (Mid InfraRed Instrumentum) opera ad una temperatura di soli 6 gradi sopra lo zero assoluto, garantita da un refrigeratore meccanico ad elio. I singoli tasselli esagonali sono regolati in modo indipendente mediante le tecniche di ottica adattiva che correggono continuamente la precisione dell’immagine puntata. Se siamo abituati a grandi precisioni in attività scientifiche sulla terra, come possono essere delle sofisticate operazioni chirurgiche o il funzionamento dei rivelatori dei grandi acceleratori di particelle, il fatto di generare questa precisione a milioni di km dalla terra, con controlli remoti, non cessa di sorprendere.

carena-nebula
L’immagine della Nebulosa NGC 3324 nella costellazione della Carena, in luce infrarossa, rivela aree di stelle in formazione.
Crediti NASA, ESA, CSA, STScI

Le immagini del James Webb Space Telescope non ci parlano solo degli oggetti cosmici: ci parlano anche di noi stessi. Ci dicono chi siamo. Una specie biologica che in poche centinaia di migliaia di anni è passata dal risolvere problemi di sopravvivenza primaria a porsi domande filosofiche sulla sua origine e sul suo destino. In poco più di 300 anni è passata dall’impostazione delle equazioni differenziali a comprendere come rappresentare teoricamente l’universo in cui vive. In meno di 200 anni è passata dalla scoperta delle equazioni dell’elettromagnetismo a gestire sofisticatissimi strumenti di misura a milioni di km dal nostro pianeta. Questo è Homo Sapiens. E questo ci dice molto sulla sua unicità, sul mistero che egli è in sé stesso, in questo universo in cui abita. Io sono un sacerdote cattolico. Oggi, nella celebrazione della s. Messa, ho collocato idealmente sull’altare, insieme al pane e al vino, “frutto della terra e del lavoro dell’uomo” lo straordinario lavoro che consente a JWST di funzionare e inviarci i suoi meravigliosi risultati. Lavoro di uomini e donne che testimoniano la grandezza dell’intelligenza umana, ma anche, aggiungo volentieri insieme a tutti i credenti in Dio, la grandezza del Creatore di cui siamo immagine.

 


Le prime 5 immagini presentate e commentate dalla NASA

https://www.nasa.gov/webbfirstimages

 

Pagina dell’Istituto Nazionale di Astrofisica (INAF) dedicato a JWST

https://www.media.inaf.it/tag/jwst/

 

Le prime 5 immagini di JWST commentate da INAF

https://www.media.inaf.it/2022/07/12/prime-immagini-jwst/

 

First Images from the JWST - Official NASA Broadcast (video 53:51)

https://www.youtube.com/watch?v=nmMRMIE3MGw

 

La voce Wikipedia del JWST

https://it.wikipedia.org/wiki/Telescopio_spaziale_James_Webb