Outliers en los datos analíticos

por Sergio Chesniuk 15 de abril de 2020

Un outlier puede definirse como una observación en un conjunto de datos que parece ser inconsistente con el resto de ese conjunto. Normalmente, esto significa un valor visiblemente distante del resto de los datos.

Los valores marginales tienen generalmente una influencia apreciable en los valores medios calculados e incluso más influencia en las desviaciones estándar calculadas. La variación aleatoria genera ocasionalmente valores extremos por casualidad; Éstos forman parte de los datos válidos y generalmente se deben incluir en cualquier cálculo.

Desafortunadamente, una causa común de valores atípicos - particularmente valores muy extremos - es el error humano u otra aberración en el proceso analítico, como el fallo del instrumento. Obviamente, los valores derivados de un procedimiento defectuoso no deben influir en las conclusiones extraídas de los datos, por lo que es importante poder minimizar su impacto en las estadísticas.

Existen dos estrategias generales para minimizar el efecto de los valores atípicos. El primero es la prueba de valores anómalos, que pretende identificar los valores atípicos y distinguirlos de la variación casual, permitiendo al analista inspeccionar los datos sospechosos y si es necesario corregir o eliminar valores erróneos. Los métodos generales y más aceptados son: la prueba de Dixon, la prueba de Grubbs y la prueba de Cochran. La segunda estrategia es utilizar estadísticas robustas: procedimientos estadísticos que no se ven muy afectados por la presencia de valores extremos ocasionales, pero que siguen funcionando bien cuando no existen valores atípicos. Algunos métodos robustos son: La mediana y media recortada, la estimación A15, la propuesta de Huber 2 (para la media), la desviación mediana absoluta, MADE, desviación media absoluta (DMA) y sDMA, la propuesta de Huber 2 (para desvío estándar robusto).