Il benessere animale è al centro di innumerevoli studi ormai. Le scale di valutazione perciò vengono studiate e migliorate al fine di permettere una misurazione efficace e oggettiva. La maggior parte dei protocolli adotta variabili dicotomiche, tuttavia per ottenere un'analisi più efficiente può essere interessare usare indicatori triconomici o su quattro livelli. Un recente studio si è posto l'obiettivo di identificare i migliori indici adatti a questa complessa analisi, che permettano una misurazione oggettiva e ripetibile. Di seguito l'approfondimento.
Gli indicatori basati sul benessere degli animali sono considerati i più adatti per una valutazione completa del benessere, in quanto si basano su valutazioni effettuate sull'animale stesso. Gli indicatori attualmente inclusi nei protocolli di valutazione del benessere animale sono principalmente variabili dicotomiche, ad esempio: l'asimmetria della mammella nel protocollo di valutazione del benessere degli animali per le capre; punteggi: 0 = assenza di asimmetria; 1 = presenza di asimmetria; tosse nella valutazione per i suini; punteggi: 0 = nessuna evidenza di tosse; 2 = evidenza di tosse.
Tuttavia, si trovano anche indicatori tricotomici e a quattro livelli. Esempi di indicatori tricotomici del benessere animale sono la dermatite dei cuscinetti plantari nel protocollo di valutazione per il pollame - punteggi:
0 = zampe intatte, nessuna o minima proliferazione dell'epitelio; 1 = necrosi o proliferazione dell'epitelio o zampa di cane cronica con gonfiore assente o moderato; 2 = gonfiore (visibile dorsalmente);
e la borsite nella valutazione per i suini - punteggi:
0 = nessuna evidenza di borsiti; 1 = una o più borsiti piccole sulla stessa zampa o una borsite grande; 2 = più borsiti grandi sulla stessa zampa, o una borsite estremamente grande, o qualsiasi borsite erosa.
Tra gli indicatori a quattro livelli inclusi nei protocolli di valutazione del benessere, è possibile trovare le lesioni del corpo e della testa nel protocollo di valutazione del benessere AWIN per gli ovini con punteggi:
0 = nessuna lesione; 1 = lesioni minori; 2 = lesioni maggiori; 3 = miasi,
e le lesioni agli angoli della bocca nel protocollo di valutazione del benessere AWIN per i cavalli - punteggi:
0 = nessuna lesione; 1 = macchie indurite; 2 = arrossamento; 3 = ferite aperte.
Nella letteratura pubblicata si possono trovare altri esempi di indicatori di benessere basati su tricotomi e su quattro livelli.
L'inclusione di indicatori basati sul benessere degli animali nei protocolli di valutazione del benessere implica che tali indicatori devono essere validi, fattibili e affidabili. L'affidabilità deve essere valutata sia quando un osservatore esegue la valutazione del benessere sugli stessi soggetti più volte (affidabilità intra-osservatore), sia quando osservatori diversi eseguono la valutazione del benessere sugli stessi soggetti contemporaneamente e in modo indipendente l'uno dall'altro (affidabilità inter-osservatore; IOR).
Per valutare lo IOR, il livello di accordo tra gli osservatori viene calcolato elaborando i punteggi assegnati dagli osservatori a ciascuna variabile utilizzando diversi indici statistici, definiti indici di accordo. Se la percentuale di accordo (cioè il tasso di concordanza, P0) tra gli osservatori è bassa, l'affidabilità dell'indicatore sarà altrettanto bassa; pertanto, l'indicatore non sarà adatto a valutare correttamente il benessere degli animali e dovrà essere ridefinito.
Nella letteratura pubblicata, gli indici di accordo appartenenti alla statistica Kappa sono i più utilizzati per la valutazione dello IOR di indicatori categoriali tricotomici e a quattro livelli di benessere animale valutati a livello individuale. Anche se non è nostro scopo fornire una rassegna esaustiva della letteratura, intendiamo fornire alcuni esempi. Il K di Cohen è stato utilizzato per valutare l'affidabilità di una consistenza fecale a tre livelli nei suini in crescita, per valutare lo IOR di indicatori a quattro livelli (temperatura rettale, tosse, secrezione oculare, secrezione nasale e posizione delle orecchie) in bovini da latte pre-svezzati. Il K ponderato di Cohen è stato invece applicato sia per valutare lo IOR del BCS e delle callosità del ginocchio (KNC) nelle capre da latte, sia per valutare lo IOR degli indicatori tricotomici delle condizioni del vello e della sovracrescita dello zoccolo, dell'indicatore a quattro livelli dell'integrità della parete del piede e di un BCS a cinque livelli, nelle pecore da latte.
Thomsen e Baadsgaard hanno valutato lo IOR degli indicatori tricotomici zoppia e lesioni cutanee nei bovini da latte utilizzando il metodo prevalence-adjusted, bias-adjusted kappa (PABAK). Czycholl et al. hanno valutato l'affidabilità della Horse Grimace Scale (una combinazione di diversi indicatori di benessere animale valutati con una scala di valutazione a 3 livelli), delle alterazioni del tegumento a 4 livelli valutate in varie parti del corpo del cavallo e di un BCS a 5 livelli, utilizzando contemporaneamente il K di Cohen, il K ponderato di Cohen e il PABAK.
Tuttavia, la statistica Kappa è talvolta affetta da un comportamento paradossale e pertanto in letteratura sono stati proposti altri indici di accordo. Una questione critica è che, quando si valuta l'affidabilità, una parte dell'accordo tra gli osservatori potrebbe essere dovuta al caso, essendo definita "accordo casuale". Durante la valutazione dell'accordo tra gli osservatori, il tasso di accordo dovuto al caso (Pe) deve essere rimosso dal tasso di accordo osservato (P0).
Per valutare correttamente l'accordo tra gli osservatori, è essenziale determinare il modo più appropriato per calcolare il tasso di accordo dovuto al caso. A questo scopo, in letteratura sono stati proposti molti indici di accordo corretti per il caso, utilizzati nel caso della presenza di due osservatori.
Ad esempio, Scott ha ipotizzato che l'accordo casuale sia legato alle probabilità di classificazione dei soggetti all'interno della stessa categoria da parte dei due osservatori. Cohen ha criticato questa ipotesi, poiché la classificazione di tutti i soggetti all'interno della stessa categoria significa che l'accordo casuale è uguale a 1 e che lo IOR è pari a 0.
Pertanto, il π di Scott è adatto solo quando il livello di accordo tra gli osservatori nell'assegnare i soggetti alla stessa categoria è scarso, per cui il tasso di accordo dovuto al caso risulta inferiore.
Il calcolo dell'accordo casuale del K di Cohen differisce da quello del π di Scott; infatti, per l'implementazione del tasso di accordo dovuto al caso, Cohen ha considerato il numero di volte in cui gli osservatori assegnano i soggetti a ciascuna delle categorie considerate. Ciononostante, il K di Cohen è caratterizzato dagli stessi problemi che affliggono il π di Scott: quando gli osservatori assegnano tutti i soggetti alla stessa categoria, l'accordo dovuto al caso sarà pari a 1.
Di conseguenza, quando l'accordo dovuto al caso è elevato, il K di Cohen assume un valore basso, nonostante l'elevata P0 osservata. Come affermato da Feinstein e Cicchetti, ciò è dovuto allo sbilanciamento delle distribuzioni marginali all'interno della matrice di concordanza.
Secondo Bennet, l'accordo di casualità può anche essere considerato come l'inverso del numero di categorie. Successivamente, questo principio è stato proposto da Holley e Guilford con la G di Holley e Guilford e poi da Falotico e Quattocon la S di Quatto, indici strettamente correlati tra loro.
Come il G di Holley e Guilford e l'S di Quatto, il γ(AC1) di Gwet considera il numero delle categorie che caratterizzano la variabile, ma l'implementazione dell'accordo di casualità è diversa e più complessa. Secondo Gwet, non si deve considerare solo il numero di categorie che caratterizzano la variabile, ma anche la frequenza con cui i punteggi vengono attribuiti a ciascun soggetto da ciascun osservatore coinvolto.
La scelta degli indici di concordanza non è solo legata al numero di categorie che caratterizzano la variabile in analisi, ma anche al numero di osservatori coinvolti nel processo di valutazione. Per questo motivo, è fondamentale calcolare indici di concordanza in grado di stimare correttamente la concordanza tra due o più osservatori, conferendo risultati di concordanza affidabili e garantendo la possibilità di includere nuovi indicatori di benessere animale nei protocolli di valutazione del benessere.
In uno studio precedente hanno identificato il B di Bangdiwala e il γ(AC1) di Gwet, come i migliori indici di accordo per valutare lo IOR tra due osservatori nel caso di indicatori categoriali dicotomici del benessere animale.
Con questo studio ci siamo posti l'obiettivo di identificare i migliori indici per misurare l'accordo tra due osservatori e calcolare i relativi intervalli di confidenza nella valutazione di indicatori di benessere animale basati su livelli tricotomici e a quattro livelli.
Per fare ciò, abbiamo selezionato due indicatori tricotomici, ovvero il BCS e il KNC da un prototipo e da uno modificato del protocollo di valutazione del benessere degli animali (AWIN) per le capre, e due indicatori a quattro livelli tratti dalla letteratura pubblicata, ovvero l'EP e l'EW nelle vacche da latte, e li abbiamo utilizzati come esempi per testare le prestazioni degli indici di concordanza più documentati proposti in letteratura.
Conclusioni e possibili sviluppi dello studio
Dai risultati ottenuti, è evidente che non tutti gli indici di accordo disponibili in letteratura sono adatti a valutare lo IOR, tra due osservatori per gli indicatori di benessere tricotomici, o a quattro livelli, valutati a livello individuale.
Il B di Bangdiwala, il γ(AC1) di Gwet e l'S ponderato di Quatto sono promettenti per una corretta valutazione dello IOR nel caso di indicatori tricotomici e in presenza di due osservatori, dimostrandosi una valida alternativa al π di Scott, al K di Cohen, al KC di Cohen, al K ponderato di Cohen e all'α di Krippendorff, che talvolta sono affetti dal comportamento paradossale.
In presenza di due osservatori, la B di Bangdiwala e la γ di Gwet (AC1) possono essere utilizzate per indicatori tricotomici che si comportano solo come variabili categoriali, mentre la S ponderata di Quatto (che utilizza pesi lineari) è suggerita per valutare lo IOR per indicatori tricotomici che si comportano solo come variabili ordinali.
Tutti e tre questi indici di accordo sono adatti a valutare lo IOR per indicatori tricotomici che si comportano sia come variabili categoriali che ordinali e in presenza di due osservatori. Tuttavia, è importante specificare che, in presenza di indicatori che si comportano in entrambi i modi, gli osservatori possono scegliere di considerarli come variabili categoriali o ordinali, il che implica l'uso di indici di accordo diversi.
La γ(AC1) di Gwet, S di Quatto e la G di Holley e Guilford conferiscono i migliori risultati di accordo anche durante la valutazione dello IOR tra due osservatori nel caso di indicatori a quattro livelli.
Gli indicatori di benessere animale a cinque livelli sono presenti anche nei protocolli di valutazione del benessere e nella letteratura pubblicata. I risultati ottenuti in questo studio per gli indicatori a quattro livelli possono essere estesi anche a variabili categoriali caratterizzate da un numero maggiore di categorie, in presenza di due osservatori.
Con i dati reali utilizzati in questo studio, il comportamento paradossale non è stato rilevato per gli indicatori a quattro livelli. Tuttavia, come evidenziato in alcuni studi riportati nella letteratura pubblicata, e come si è visto anche forzando le matrici del presente studio, il comportamento paradossale può interessare anche gli indicatori a quattro livelli, nonostante la presenza di un numero elevato di categorie.
Inoltre, considerando qualsiasi numero di categorie che caratterizzano la variabile in analisi, la S ponderata di Quatto è un indice affidabile per valutare lo IOR per gli indicatori ordinali.
Per alcuni indici di accordo, le formule chiuse di varianza erano troppo complesse per essere implementate manualmente. I nostri risultati mostrano che il metodo Bootstrap è valido e rappresenta un'alternativa più semplice e accurata alle formule chiuse della varianza per la stima degli intervalli di confidenza di tutti gli indici di accordo.
Saranno necessari ulteriori studi per identificare quali indici di concordanza utilizzare per una corretta valutazione dello IOR in presenza di un numero di osservatori superiore a due.
Fonti: Il presente articolo è un estratto della pubblicazione intitolata "Evaluation of inter-observer reliability in the case of trichotomous and four-level animal-based welfare indicators with two observers" presente sull'Italian Journal of Animal Sciences e consultabile in versione integrale al seguente link:
Comments