Puntuaciones cuantitativas para Ensayos de Aptitud cualitativos binarios

por Sergio Chesniuk 6 de mayo de 2020

Resumen

Si bien los z scores brindan a los participantes puntajes fáciles de interpretar para las pruebas de competencia cuantitativas, no existe un método de calificación equivalente universalmente aceptado para las pruebas cualitativas. Bajo el supuesto de que estas pruebas siguen una distribución binomial, es posible calcular puntajes que imitan los puntajes z ampliamente utilizados y brindan a los participantes una idea de su nivel de rendimiento. Se muestra que estos puntajes, denominados a-scores, se pueden combinar para proporcionar un puntaje único para múltiples pruebas para que los participantes puedan monitorear su desempeño a lo largo del tiempo y discutir el uso de la prueba binomial exacta en lugar de obtener incertidumbre cuando no hay un consenso claro.

Introducción

Las pruebas de aptitud (PT) evalúan el desempeño de los participantes contra criterios preestablecidos por medio de comparaciones entre laboratorios. La mayoría de estas pruebas son cuantitativas, lo que permite una evaluación de igual manera, principalmente a través de z-scores (puntajes z) debido a su solidez y facilidad de interpretación.

Estos puntajes vienen dados por

donde x es el resultado del participante, x_pt es la estimación del resultado verdadero y s_pt (sigma_pt) es la desviación estándar para la evaluación de competencia (SDPA). Los z-scores se pueden combinar a partir de múltiples pruebas para proporcionar una medida del rendimiento a lo largo del tiempo. Al calcular la puntuación z, los proveedores de PT suelen utilizar estadísticas sólidas, como el método de Huber para la media robusta, y criterios adecuados para el ajuste a propósito, como la función de Horwitz para la SDPA.

Actualmente, aproximadamente el 15% de los PT de química alimentaria en Fapas®, un proveedor acreditado de pruebas de aptitud, utiliza evaluaciones cualitativas, a veces en combinación con resultados y evaluaciones cuantitativas. Los resultados cualitativos informados por los participantes generalmente son "detectado" o "no detectado" (presencia o ausencia de un analito objetivo en una muestra de ensayo). Los laboratorios participantes también pueden informar un resultado nulo 'no ensayado' o similar, en cuyo caso no serán evaluados y no contribuirán al valor asignado de consenso, que se supone está de acuerdo con más de la mitad de los resultados cualitativos. Aunque es poco probable, es posible que el resultado esperado concuerde exactamente con la mitad (o incluso menos) de los resultados válidos, en cuyo caso se pueden utilizar métodos alternativos.

Aunque en este artículo se menciona en todo momento como el valor de consenso, otros métodos para elegir el valor asignado se refieren en ISO / IEC 13528: 2010 que incluyen, el uso de un valor de referencia independiente, un valor de formulación y un valor de acuerdo entre laboratorios expertos. En caso de que el consenso de los participantes no sea acorde al resultado esperado, la discrepancia debe ser racionalizada antes de llegar a una decisión final sobre el valor asignado.

Si el consenso no tiene un resultado esperado, como la detección de residuos en bajos niveles, naturalmente incurridos (no fortificados deliberadamente), los resultados que están de acuerdo con el consenso pueden marcarse simplemente como "está de acuerdo" (en lugar de "satisfactorio"). Los resultados que no están de acuerdo con el consenso pueden marcarse como "en desacuerdo" (en lugar de "no satisfactorio").

A diferencia de los puntajes dados para los PT cuantitativos, los resultados cualitativos dificultan la comparación entre las pruebas y no ofrecen la posibilidad de establecer el rendimiento de un laboratorio a lo largo del tiempo. Uhlig y col. describen un método para proporcionar puntajes para pruebas cualitativas que involucran un modelo logit con estimación de parámetros de máxima verosimilitud. Combinan la probabilidad de detección (PoD) con el nivel de competencia del laboratorio (LCL) para derivar puntajes L similares a un puntaje z, pero con una interpretación diferente. Aunque esto proporciona una medida numérica para la competencia de los laboratorios participantes, se requieren un mínimo de cinco analitos diferentes para evaluar la importancia estadística de los resultados.

La principal diferencia entre estos puntajes L y puntajes z es que un puntaje L positivo siempre es bueno, con la interpretación de que el laboratorio tiene una competencia promedio o superior al promedio. Es posible que un laboratorio identifique correctamente todos los patógenos en un PT, pero no logre una competencia "más alta que el promedio" si todos los demás participantes también se desempeñan bien, sin dar una indicación real de qué tan bien lo han hecho.

Si los resultados de múltiples ensa analíticas estuvieran disponibles para cada laboratorio, la compensación entre falsos negativos y falsos positivos podría evaluarse utilizando sensibilidad y especificidad [8]. Sin embargo, esto no es posible cuando se evalúa la competencia de laboratorios individuales con base en un solo analito. Como los laboratorios participantes están familiarizados con los puntajes z debido a su uso en las pruebas cuantitativas de competencia, un puntaje que podría interpretarse de manera similar facilitaría la comprensión de los participantes.

Por ejemplo, si todos los participantes en una prueba cualitativa dieran un resultado satisfactorio, no habría desviación del consenso y todos los participantes deberían recibir una puntuación de cero. De manera similar, si casi todos los laboratorios proporcionaran el mismo resultado, el PoD sería cercano a uno y los puntajes para estos participantes deberían ser cercanos a cero. Los pocos que dieran un resultado no satisfactorio estarían funcionando mal o su límite de cuantificación (LoQ) podría diferir de los otros laboratorios que participen.

Como un resultado incorrecto podría tener graves consecuencias, por ejemplo, cuando no se detecte la presencia de un alérgeno (falso negativo), debería dar lugar a una puntuación negativa que permita interpretarse fácilmente como insatisfactoria.

Por otro lado, un laboratorio que detecte un analito cuando la mayoría de los demás no lo haga, debería recibir una puntuación positiva, lo que refleja el hecho de que el analito no debería haber sido detectado. Este artículo describe un sistema de puntaje que es paralelo al uso de z-scores para pruebas cuantitativas, con puntajes para resultados insatisfactorios que aumentan en magnitud a medida que se incremente la PoD, siendo negativo para la no detección de analitos y positivo para detección errónea.

CLIC para más información

Referencia: Beavis, G., Wilson, J., & Sykes, M. (2019). Quantitative scores for binary qualitative proficiency testing. Accreditation and Quality Assurance, 24(4), 263-269.