Nel panorama attuale di ricerca in continua evoluzione, la corretta dimensione del campione svolge un ruolo fondamentale nell’assicurare la validità e la robustezza dei risultati statistici. In questo articolo andremo ad analizzare nel dettaglio il mondo della “power analysis“, anche detta potenza statistica, nonché un approccio essenziale per determinare come calcolare la numerosità campionaria minima ed ottimale per qualsiasi studio.

Nel dettaglio vedremo:
1. Il significato della Power Analysis
2. La definizione di potenza statistica
3. Che cos’è la numerosità campionaria minima e come determinarla

4. Il calcolo della numerosità campionaria per due gruppi indipendenti
5. Come effettuare una Power analysis per gruppi indipendenti con G*Power

6. Come effettuare una Power analysis per gruppi indipendenti con SPSS o con R

Come calcolare la numerosità campionaria minima per due gruppi

Il significato della Power Analysis

La power analysis è la tecnica statistica maggiormente utilizzata per determinare la numerosità campionaria minima necessaria da raccogliere nel momento in cui impostiamo uno studio scientifico, soprattutto se si ha la necessità di effettuare un trial o uno studio randomizzato (caso-controllo).

Negli studi retrospettivi, tipicamente, la dimensione del campione è predeterminata e non è possibile modificarla a posteriori, tuttavia tramite la power analysis a posteriori possiamo comunque comprendere se quella dimensione campionaria è adeguata o se corriamo il rischio che i nostri test ed i nostri modelli siano under-powered, ovvero non abbiano una sufficiente potenza statistica.

La definizione di potenza statistica

Per capire cos’è la potenza statistica dobbiamo introdurre il concetto di errore.

In statistica esistono due tipi di errore: l’errore di I tipo (α) e l’errore di II tipo (β).

L’errore di I tipo è quello che si compie quando di rifiuta l’ipotesi nulla del test (H0) quando questa è vera. L’errore di II tipo avviene se si accetta l’ipotesi nulla del test (H0) quando questa è falsa.

La potenza statistica di un test per definizione è 1-β e possiamo interpretarla come la probabilità di non commettere l’errore di II tipo, ovvero la probabilità di rifiutare correttamente l’ipotesi nulla.

Dal punto di vista pratico una maggior potenza del test statistico vuol dire una maggior efficacia e affidabilità del test stesso.

Cos’è la numerosità campionaria minima e come determinarla?

La numerosità campionaria minima il numero di unità statistiche necessario per il nostro studio e deve essere scelto in modo da ottenere una potenza statistica per i nostri test almeno pari, tipicamente, a 0.8.

Per il calcolo della numerosità campionaria ottimale abbiamo bisogno di:

Scegliere il livello di significatività (tipicamente 0.05)
Determinare la potenza statistica minima (tipicamente almeno 0.8)
Identificare l’outcome primario per il nostro studio, ovvero la variabile di interesse primario
Analizzare i dati preliminari o di letteratura

Infatti, non esiste una tecnica di power analysis unica e generalizzata, bensì dipende dall’outcome primario dello studio. In questo articolo approfondiremo la formula della power anlaysis per un outcome numerico (ovvero quantitativo) in presenza di due gruppi indipendenti (trattamento vs controllo, trattamento A vs Trattamento B, ecc).

Il calcolo della numerosità campionaria per due gruppi indipendenti

Se ho la necessità di valutare se esiste una differenza statisticamente significativa su un parametro di interesse quantitativo tra due gruppi, che sono stati tipicamente randomizzati inizialmente, Il test parametrico di riferimento sarà il t-test per campioni indipendenti.

Preliminarmente sono però interessato a determinare quanto questi due gruppi debbano essere ampi, per essere certo che una eventuale non significatività della differenza nel parametro di interesse non sia semplicemente dovuta ad una dimensione insufficiente del campione, ovvero ad uno studio con una potenza statistica insufficiente. Sappiamo infatti che nel calcolo della statistica test, e dunque del p-value del test, la dimensione del campione gioca un ruolo fondamentale.

I dati che ci servono per la power analysis per campioni indipendenti sono dunque:

Un valore atteso per la media dell’outcome primario nei due gruppi
Un valore atteso per la deviazione standard dell’outcome primario nei due gruppi

Questi dati li possiamo trovare in letteratura oppure tramite dati preliminari già raccolti. Se non sono disponibili in nessun caso questi dati, li possiamo semplicemente ipotizzare in base al buon senso o in base alle nostre supposizioni di ricerca.

In alternativa posso fornire direttamente anche l’effect size che ci aspettiamo per il test. Quella più comunemente usata per due campioni indipendenti è la D di Cohen.

Nella quantificazione dell’effect size possiamo utilizzare le linee guida fornite da Sawilowsky, S (2009). “New effect size rules of thumb”. Journal of Modern Applied Statistical Methods. 8 (2): 467–474. doi:10.22237/jmasm/1257035100. http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/, ovvero possiamo ritenere come modesto un effect size tra 0.2 e 0.5, medio fino a 0.8 e grande se superiore a 0.8.

Come effettuare una Power analysis per gruppi indipendenti con G*Power

Un ottimo tool gratuito per il calcolo della dimensione minima campionaria per due gruppi indipendenti è G*Power. Si tratta di un software gratuito, disponibile in rete e piuttosto semplice da utilizzare.

Mettere come famiglia dei test: t tests
Come Statistical test selezionare: Means: Difference between two independent means (two group)
Scegliere il tipo di power analysis (tipicamente a priori)

Compilare con i parametri di input

Come effettuare una Power analysis per gruppi indipendenti con SPSS o con R

In alternativa per la nostra Power analysis possiamo utilizzare SPSS (ultime versioni):

Andiamo su Analizza
Selezioniamo Analisi di potenza
Medie
T-test a campione indipendente
Inseriamo i dati richiesti

Come effettuare una Power analysis per gruppi indipendenti con SPSS o con R

Infine, qualora utilizzaste principalmente il linguaggio R, per effettuare la Power analysis con il software R si usa la funzione pwr.t.test.

Consulenza per calcolo numerosità del campione per gruppi indipendenti

Se hai bisogno di un aiuto per una power analysis o una consulenza per comprendere come effettuare il calcolo della dimensione campionaria minima e ottimale per il tuo studio non esitare a contattarci.

Ti forniremo una prima consulenza telefonica gratuita ed un preventivo senza impengo!