Una situación, digamos, habitual: tienes una serie de datos geotécnicos y debes escoger los valores más representativos.
Para muchos esta operación se reduce a hacer una simple media aritmética pero no, nunca es así de fácil, y aunque lo fuera, antes se debe analizar bien la muestra y comprobar la existencia de valores anómalos u outliers que puedan alterar o falsear la información (resultados correctos pero inesperados, agrupaciones de datos, errores de medición, valores inventados, milagros… otro día hablamos de eso).
Lo primero, antes de cualquier análisis estadístico, debería ser representar los datos gráficamente y ver qué forma tienen (si, estoy pensando en el Cuarteto de Anscombe).
Hecho esto, lo más habitual es hacer un análisis estadístico, normalmente estadística descriptiva unidimensional (personalmente me decanto por los diagramas Box-Whisker) o algún tratamiento geoestadístico, si disponemos de la información necesaria, pero hay muchos otros métodos, entre ellos el Lag Plot.
Y esa es la idea del artículo que enlazo hoy, con una introducción al uso del Lag Plot para detectar posibles datos anómalos, en este caso en el campo de la mecánica de rocas (resistencia a compresión simple), pero sin olvidar nunca el sentido común porque, como bien dicen los autores:
«es extremadamente importante remarcar que su aplicación siempre debe realizarse primando el criterio geológico-geotécnico sobre el criterio matemático, que simplemente es utilizado como una herramienta auxiliar al conocimiento de los datos tratados y nunca como criterio único.»
Es un método muy simple, sólo puede detectar extremos, no veo que utilidad puede tener.
Detecta extremos y agrupaciones. Al detectar extremos, libera a las muestras de datos que las desvirtúan; al detectar agrupaciones, permite la correlación de dichas agrupaciones con un parámetro (R.M.R, grado de alteración, etc.) y permite el desglose de la muestra según ese parámetro.
A partir de ahí, la creatividad de cada uno.
Muchas gracias por nombrar el artículo, Enrique.
Saludos