lunes, 6 de julio de 2015

Lecciones de Big Data Analysis en la guerra de Malvinas

Como sabemos, el paradigma del Big Data o, más precisamente, Big Data Analysis, ha pasado a ser en los últimos años un elemento estratégico para las empresas, dadas las enormes capacidades que brinda de aprovechar la actual "explosión de datos", para crear nuevas fuentes e ingresos, obtener ventajas competitivas y optimizar los procesos operacionales.

Existiendo consenso alrededor de este hecho, el principal problema que se plantean las empresas es: ¿Cómo empezar? ¿Qué cambios tecnológicos, de procesos y organizativos derivan de la implementación de un programa de Big Data en una compañía? Alrededor de este problema se ha generado una creciente industria de servicios de consultoría, formación, herramientas, libros y otros.

Realmente, no es que no hubiera fundamentos al respecto.  La mayoría de los programas de Big Data actuales se basan en las metodologías, más o menos estandarizadas, que se utilizaban para los proyectos de Business Intelligence o Data Mining, que vienen de los años ´90.  Actualmente, muchos especialistas trabajan en adaptar estas metodologías para aprovechar herramientas recientes (como Hadoop) y, sobre todo, encontrar formas de obtener resultados más rápido o, por lo menos, más alineados con el margen temporal de que disponemos para el análisis de datos sea realmente relevante.

Existen, accesibles por Internet, múltiples ejemplos de metodologías para impelementar programas de Big Data, propuestos por diferentes expertos y empresas de consultoría y formación. Cada uno tiene sus matices y ventajas, pero no vamos a centrarnos en ellos en detalle.  Un ejemplo de intento de aportar mejoras al enfoque de Gestión de Proyectos de Big Data, lo podemos ver aquí en el trabajo de Tifani Crawford, publicado por el PMI, pmisv.org/.../1028-tiffani-crawford-presentation.

Pero, por simplificar, asumamos que las metodología de Data Mining son adecuadas para iniciarse en el campo y entender luego la evoluciones de los últimos años.  Un punto de partida puede ser Cross Industry Standard Process for Data Mining, (CRISP-DM), un modelo de procesos que surge de una síntesis, realizada en base a encuestas por el gran Gregory Piatetsky-Shapiro, uno de los pioneros de la disciplina, autor del primer libro canónico en 1991, "Knowledge Discovery in Databases (AAAI/MIT Press, 1991), que leíamos todos en esa época.  La otra metodología, aunque menos usada, es SEMMA (Sample, Explore, Modify, Model and Assess), desarrollada por el  SAS Institute, pero esta está orientada a los negocios.

https://creativecommons.org/licenses/by-sa/3.0/legalcode
Metodología CRISP-DM
Gráfico de Kenneth Jensen (https://creativecommons.org/licenses/by-sa/3.0/legalcode)


La metodología CRISP-DM prevé 6 fases secuenciales, con una posible iteración a partir de resultados de las "muestras" evaluadas (flecha de evaluación a Business Understanding).  

La primera fase es bastante evidente, consiste en definir los objetivos que se pretenden lograr desde el punto de vista del negocio (generar más ingresos, mejorar en un grado la fidelidad o satisfacción del cliente, etc) y luego definir el problema en términos de "minería de datos" (o big data analytics), y un plan preliminar diseñado para alcanzar los objetivos. En este punto no se requiere realmente un conocimiento especializado, más allá de los beneficios de la tecnología, y cualquier persona de negocios con un mínimo de formación debería alcanzarlo.

Actualmente, este punto resulta más fácil de abordar desde el punto de vista del benchmarking. Existen ya cientos de ejemplos que utilizan esta tecnología para lograr ventajas competitivas y generar nuevos negocios.  Por supuesto, todavía surgen ideas creativas o variantes a partir evoluciones en los mercados, la disponbilidad de datos y de la tecnología.  Es el terreno de los entrepreneurs o intrapreneurs pero, sobre todo, para el que recién se inicia es importante analizar la experiencia de los que ya hicieron un camino y, afortunadamente, hay muchos ejemplos en los que apoyarse.

La fase 2 es más compleja y requiere comenzar a dominar algunas técnicas que vienen del mundo de la estadística, de la lógica, de la inteligencia artificial y de machine learning.  Como decíamos en otro post (http://gestionyti.blogspot.com.es/2015/06/big-data-los-origenes.html), muchas de estas técnicas son muy antiguas (como la regresión), pero es necesario conocerlas y saber cuáles son las ventajas y desventajas de cada una de ellas.

Otro aspecto particular a entender muy bien son los propios datos.  Generalmente no existe un mundo perfecto donde recibimos conjuntos de datos bien estructurados, completos, relevantes, consistentes entre si y sin errores.  Por el contrario, apenas empecemos a buscar una utilidad práctica nos damos cuenta que nos faltan datos relevantes, que hay un porcentaje de errores difíciles de detectar, que hay cientos de atributos irrelevantes, etc. Para el análisis de los datos es importante contar con dos buenas condiciones de partida: conocimiento del campo, técnicas estadísticas y una dosis de sentido común.

No es un atributo necesariamente de un informático o un programador. Un buen ejemplo de análisis de datos y de esta combinación de habilidades se puede extraer de la guerra de Malvinas en 1982, mucho antes de que se elucubraran los términos de Data Mining o Big Data.  En dicho conflicto uno de las principales desventajas de las FF.AA. argentinas era no disponer de información de reconocimiento aéreo (o satelital) acerca de la ubicación de la flota británica, mientras que la Royal Navy tenía a su disposición los satélites militares de la OTAN, que podían establecer con precisión y en un tiempo adecuado la situación de cada unidad argentina.

Sin embargo, Argentina formaba parte del consorcio Landsat, que proveía a los países firmantes de información satelital meteorológica (con horas de delay respecto del barrido).  El Administrador de la plataforma, EE.UU., evaluó que la baja resolución de las fotos y el delay de entrega, hacía inviable que esta fuera usada con fines militares, así que, a pesar de alguna duda inicial, autorizó que se siguieran sumistrando las imágenes, como se ve en el documento desclasificado abajo. 





Efectivamente, extraer datos de inteligencia relevantes de estos datos era una misión prácticamente imposible. La Fuerza Aérea Argentina, la cual recibía los informes meteorológicos, se enfrentaba a un problema típico de análisis de datos: lo que recibían no era completo, no llegaba a tiempo ni tenían el grado de exactitud (resolución en este caso, necesaria).  Podía ser que tuvieran decenas de blancos factibles "invisibles" ocultos en un mar de millones de pixeles satelitales.
Foto satelital de baja resolución de las Islas Malvinas
Ejemplo de lo que recibían analistas fotográficos para buscar barcos enemigos

Sin embargo,contaban con Cora S., una licenciada en Astronomía y experta en análisis de fotografías satelitales.  En el libro "Relaciones carnales: la verdadera historia de la construcción y destrucción del Misil Condor II", Eduardo Barcelona y Julio Villalonga, se relata someramente la solución a este problema.

[...a Cora “se le ocurrió que con los 80 metros de rango de definición que nos habían dejado en el satélite los norteamericanos se podía buscar algo en la zona del conflicto: podía existir la posibilidad que detectáramos a los barcos ingleses. La idea era que si mandábamos una onda de rayos infrarrojos al satélite y rastreábamos la zona alrededor de las islas podíamos localizar la estela de las naves, porque las turbinas calientan el agua. De acuerdo con el calor que detectáramos podríamos inferir a que distancia del lugar estaba el buque que había pasado por allí, porque relacionándolo con el grado de temperatura que observáramos, sabríamos cuanto tiempo hacía que había pasado por el lugar. Era como mirar por el ojo de la cerradura un cuadro de dimensiones fantásticas. Pero esa genialidad dio resultado y varias de las operaciones que hizo la fuerza, y en las que se hundieron barcos ingleses, fueron un éxito por eso”

Cora había encontrado la manera de darle significado a los escasos datos que tenía, utilizando los tres elementos que mencionamos antes:

- sentido común (de irradiar las imágenes del satélite con rayos infrarrojos debe dar como resultado una imagen térmica)

- conocimiento especializado del campo (las turbinas producen variaciones de temperatura en el agua y son visibles en una imagen térmica, y el agua luego va volviendo a la temperatura ambiente normal, dejando una "huella" térmica)

- métodos estadísticos (extrapolar las coordenadas de la ubicación de los barcos, tomando como base las distancias y trayectorias, para completar los huecos)


Conseguiendo predecir con exactitud la ubicación de los buques británicos lo que llevaría a los pilotos a sus blancos.  Cabe aclarar que en este caso, la precisión era fundamental dado que los aviones sólo tenían autonomía para permanecer unos pocos minutos sobre el área de ataque, no podían dar vueltas buscando blancos (además de que esto aumentaba su vulnerabilidad).  Aunque encontrar el blanco era sólo la primera parte (aunque fundamental) del problema.

Imagen de la cineametralladora de un avión argentino atacando a una fragata  británica en vuelo rasante
Nótese el reguero de disparos en el agua


En definitiva, antes de tomar decisiones precipitadas es necesario analizar adecuadamente los datos en su contexto y contar con el expertise adecuado en las disciplinas mencionadas. A veces, es posible "obtener petróleo" a partir de datos aparentemente incompletos y podemos no darnos cuenta de ello.











No hay comentarios:

Publicar un comentario