Introducción al método Lag Plot para la detección de outliers en la caracterización geotécnica del terreno

Una situación, digamos, habitual: tienes una serie de datos geotécnicos y debes escoger los valores más representativos.

Para muchos esta operación se reduce a hacer una simple media aritmética pero no, nunca es así de fácil, y aunque lo fuera, antes se debe analizar bien la muestra y comprobar la existencia de valores anómalos u outliers que puedan alterar o falsear la información (resultados correctos pero inesperados, agrupaciones de datos, errores de medición, valores inventados, milagros… otro día hablamos de eso).

Lo primero, antes de cualquier análisis estadístico, debería ser representar los datos gráficamente y ver qué forma tienen (si, estoy pensando en el Cuarteto de Anscombe).

Hecho esto, lo más habitual es hacer un análisis estadístico, normalmente estadística descriptiva unidimensional (personalmente me decanto por los diagramas Box-Whisker) o algún tratamiento geoestadístico, si disponemos de la información necesaria, pero hay muchos otros métodos, entre ellos el Lag Plot.

Y esa es la idea del artículo que enlazo hoy, con una introducción al uso del Lag Plot para detectar posibles datos anómalos, en este caso en el campo de la mecánica de rocas (resistencia a compresión simple), pero sin olvidar nunca el sentido común porque, como bien dicen los autores:

«es extremadamente importante remarcar que su aplicación siempre debe realizarse primando el criterio geológico-geotécnico sobre el criterio matemático, que simplemente es utilizado como una herramienta auxiliar al conocimiento de los datos tratados y nunca como criterio único.»

Clasificación de muestras y detección de outliers en la caracterización geotécnica del terreno. Juan Luis Hita María, Rodrigo Martínez Zarco y Juan Herrera Herbert. Departamento de Geotecnia y Obras Subterráneas. Aecom España. Universidad Politécnica de Madrid

H. Bolton Seed Lecture 2013, «Slope Stability Computations», por Stephen G. Wright

H. B. Seed Lecture 2013, "Slope Stability Calculations", por Stephen G. Wright

El honor de impartir la conferencia H. Bolton Seed de 2013 ha recaído este año en Stephen G. Wright, profesor emérito de la Universidad de Austin en Texas, que ha decidido hablar sobre «Slope Stability Computations» o, lo que es lo mismo, «Cálculos de Estabilidad de taludes«, en una cuidada conferencia sobre la precisión y fiabilidad de los métodos y la importancia de las redes de flujo, incluyendo también algunos comentarios sobre los programas informáticos utilizados. Que la disfrutéis.

Vía GeoPrac.net.


Realidad aumentada, ahora con cajones de arena

Lo llaman «caja de arena de realidad aumentada» (augmented reality sandbox) y antes de comentar nada más, os dejo con los vídeos. El primero muestra cómo funciona el invento y el segundo, la simulación de un vertido (llamarlo «virtual dam failure» me parece un poco exagerado).

 

Según cuenta la página web del proyecto, gracias al hackeo de Héctor Martín han podido aprovechar la cámara 3D del Microsoft Kinect para Xbox para detectar la arena (el terreno), dejando un segundo de desfase para modificar cosas (en el instante 5:30 del segundo vídeo se ve lo que ocurre cuando dejan la mano quieta durante unos segundos). Después han usado un proyector para dibujar el terreno virtual sobre la propia caja, asignando colores a las curvas de nivel, generando finalmente el agua «por imposición de manos» (lo mejor de todo).

Para la simulación numérica han utilizado las ecuaciones de Saint-Venant para aguas someras a partir de las ecuaciones de Navier-Stokes, utilizando la superficie de arena como condición de contorno, sacrificando algo de exactitud para poder calcularlo en tiempo real por el método de Runge-Kutta sin quemar la tarjeta gráfica (una Nvidia GeForce GTX580). Si tienes interés en saber cómo han resuelto las cuestiones numéricas, aquí tienes más información [pdf – 2,14 Mb].

La simulación no está mal, pero lo interesante de verdad, con mayúsculas y en negrita, INTERESANTE, es que se pueden hacer simulaciones encima de la mesa y a mano alzada, ¿incómodo?, seguramente, pero enormemente útil a efectos didácticos (para demostrar a los alumnos que todas esas cosas raras que estudiamos sirven para algo) y, sobre todo, para enseñarle a la gente por qué y para qué se hacen estas simulaciones, especialmente en el siempre doloroso tema de las inundaciones, que parecemos tontos, oye, todos los años igual.


Geotecnia y Fotografía: Los filtros digitales no sólo quitan arrugas, también redes de malla

Geotecnia y Fotografía: Filtro anti redes de malla

Una ley no escrita de la geotecnia ―y muy especialmente de la mecánica de rocas―, dice que cuánto más inaccesible sea la zona, mas importante será disponer de los datos.

En este caso la ley se cumplía, y con IVA incluido, además, porque el acceso (ya de por sí complicado), tenía un “opaco” impuesto en forma de redes, una red de malla y otra de anillos… y no todos tenemos la opción ni somos tan atrevidos como mi amigo Joan, que hace unos meses bajaba en persona a inspeccionar un sinkhole en la Universidad Autónoma de Barcelona.

No se podía acceder, las redes lo tapaban casi todo y era muy necesario (mucho) saber qué había detrás, ¿qué podía hacer…?

Para empezar (y hasta disponer de la prometida grúa que nunca llegó), mirarlo todo con atención, mucha, y tomar fotografías, también muchas. Desde el punto más cercano posible, con el zoom óptico al máximo, y con la mejor calidad… después, ya veríamos.

Geotecnia y Fotografía: Filtro anti redes de malla

Lo último, un filtro de retoque fotográfico anti-redes de malla (pulsa para verlo mejor)

Las mallas presentaban cierta forma regular y un “grosor” de entre 3 y 8 píxeles, por lo que un filtro de convolución de eliminación de ruido parecía la mejor opción. Craso error, el método no funcionaba, en lugar de “difuminar” la malla sobre el fondo emborronaba toda la imagen y todavía se veía menos.

Por suerte, fue mucho más fácil. Las mallas eran muy blancas (muy luminosas) en comparación con el fondo (más oscuro), así que el mejor fue aplicar un filtro de valor mínimo en una cuadrícula de 5×5, es decir, tomar para cada pixel el valor mínimo de los 24 píxeles que lo rodean, eliminando así todo rastro de la malla.

Se pierde calidad, es un hecho, pero creo que el resultado permite observar algo mejor el estado del terreno, ¿no?

No es un truco muy espectacular ni una técnica muy depurada, pero espero que a alguien le sirva de orientación si se encuentra en una circunstancia similar. Estos filtros están en cualquier programa medianamente serio, tanto de pago (PhotoShop) como gratuitos (GIMP, XnView, PhotoFiltre, etc.). Las pruebas con la matriz de convolución las hice con GIMP, para el filtro de mínimo utilicé XnView, el filtro que incorpora GIMP sólo permite usar un entorno 3×3.

Un saludo desde aquí para GeoTalud, que hizo un trabajo estupendo en un recalce más complicado que necesario.


La representación de datos: Edward Tufte, Power Point y la campaña de Rusia de 1812

El poder corrompe, PowerPoint corrompe absolutamente
Edward R. Tufte

Ingeniería en la Red está comentando estos últimos días la patética situación del desempleo entre los ingenieros de caminos a raíz de unas, digamos, «peculiares» gráficas del CICCP, al que ha recomendado dos libros sobre presentación de datos que están ya en mi lista de próximas lecturas.

Me he permitido añadir dos libros más, «The Visual Display of Quantitative Information» y «Beautiful Evidence«, ambos de Edward R. Tufte, aunque más que los libros se podría decir que recomiendo toda su obra, tema que voy a desarrollar con más calma.

La ingeniería civil tiene virtudes y defectos: entre las virtudes, saber trabajar con grandes cantidades de información; entre los defectos, no tener ni puñetera idea de cómo comunicar toda esa información. Es un hecho, nos vendemos de pena, nos gusta controlarlo todo y saber cómo, por qué y de dónde salen las cosas hasta el segundo decimal -sobre todo en los precios-, pero a la hora de venderlo o explicarlo, damos vergüenza ajena (evidentemente, es una generalización y siempre hay excepciones, pero ya sabéis a qué me refiero).

La información escrita, sea en pantalla o sobre papel, tiene una gran ventaja sobre la visual o auditiva, porque leemos mucho más rápido que hablamos, lo cual nos permite «absorber y discriminar» la información mucho más rápido. Se dice que una imagen vale más que mil palabras, pero no todo lo que se dice es cierto, depende de la imagen y depende de las mil palabras.

En el caso de las gráficas es casi siempre cierto, una gráfica es casi siempre mucho mejor que mil aburridos números… casi siempre, repito, porque los estilos predefinidos de las hojas de cálculo no sirven para todos los casos y, francamente, muy poca gente se molesta en cambiar los que vienen por defecto, con resultados finales no siempre adecuados (imaginad si son inadecuados que incluso el Presidente del CICCP ha malinterpretado los datos).

Edward R. Tufte es profesor emérito de estadística en la Universidad de Yale. Le han llamado «el Leonardo da Vinci de los datos«, y muchos quizá lo conozcan por ser el «inventor» de las sparklines, esas pequeñas unidades de información gráfica que pueden insertarse en el texto para ampliar los datos, que él define como «a small intense, simple, word-sized graphic with typographic resolution«.

De cara a entender, conocer y saber cómo tratar y representar los datos yo recomendaría «The Visual Display of Quantitative Information«, pero me gusta más «Beautiful Evidence«, más enfocado a explicar cómo han ido cambiando las formas de representar la información gráfica a lo largo del tiempo.

Un ejemplo de información gráfica intercalada en el texto, de Galileo Galilei

Para los adoradores del PowerPoint, el libro tiene un capítulo entero dedicado a explicar por qué no debería usarse en las empresas. En sus propias palabras, PowerPoint «elevates format over content, betraying an attitude of commercialism that turns everything into a sales pitch«, lo cual remata con un tajante «PowerPoint is Evil» (en 2007, con motivo del 20 aniversario del PowerPoint, sus creadores, Robert Gaskins y Dennis Austin, reconocieron estar de acuerdo con las críticas. En su opinión, fue un error incluirlo en el paquete Office).

Por supuesto, el capítulo incluye la prohibición de Louis Gerstner de usar PowerPoint en IBM o la historia del fracaso de la NASA con el Columbia por querer simplificar los datos en las reuniones. Si tenéis más interés, tiene un librito (27 pags.) dedicado integramente al tema, «The Cognitive Style of PowerPoint: Pitching Out Corrupts Within«.

Pulsa para ampliar el mapa y verlo mejor

Y ya que hablamos del tema, no puedo dejar de mencionar un clásico, el «Mapa figurativo de las sucesivas pérdidas de hombres de la Armada Francesa en la campaña de Rusia 1812-1813″ de Charles Joseph MinardInspecteur Général des Ponts et Chaussées (si, una de esas excepciones que citaba antes).

El mapa muestra la evolución del número de tropas durante la invasión napoleónica de Rusia a lo largo de todo el recorrido junto con la temperatura de la vuelta. Partieron 422.000 soldados y regresaron 10.000… años después, Hitler repetiría el mismo error en la Operación Barbarroja. El invierno ruso ha ganado tantas batallas que incluso tiene graduación militar, lo llaman General Invierno

Minard terminó el mapa en 1869, a la edad de 88 años. Según Tufte es el «el mejor gráfico estadístico jamás dibujado«, remarcando también que la palabra «Napoleón» no aparece en el mapa porque Minard se centraba en los datos que quería representar (dicho así suena muy bien, claro, pero Minard era francés, y ya se sabe lo que pasa con los franceses y Napoleón…)

Resumiendo. Lo peor de estos libros, darte cuenta de todo lo que estás haciendo mal. Lo mejor de estos libros, darte cuenta de todo lo que puedes mejorar todavía.

Al hilo de lo que hablaba el otro día sobre los precios de los cursos de formación, los cursos presenciales de Edward R. Tufte duran un día (10:00 – 16:00), cuestan 380$ (200$ para estudiantes) e incluyen sus cuatro libros (~30/40$ cada uno).

Por si alguien está interesado, dejo aquí los enlaces para comprarlos en Amazon. Son enlaces patrocinados, si compras el libro desde el enlace me llevo un porcentaje, si te gusta el blog es una manera de ayudar.