lunes, 29 de junio de 2015

Viejos rockeros de IA en Big Data




Hace unos meses me llegó un twitt con la referencia a un artículo  que contaba la historia de Geoffrey Hinton, un antiguo investigador de redes neuronales de los ´80, reconvertido en "becario" de Google a los 64 años y actualmente líder de uno de los emprendimientos estratégicos de la compañía de Silicon Valley.  El artículo no tiene desperdicio (http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html).

Hinton llega a la IA en una época de auge por el prometedor desarrollo de sistemas expertos, sistema para la interpretación de lenguaje natural, detección de patrones, etc.  Fue el segundo gran momento de auge de la IA, al que siguieron unos años de desatención por no haber conseguido los resultados que se prometían. Desarrollar una "máquina pensante" no era tan fácil ni tan rápido como parecía. Entre finales de los ´80 y los primeros años de los ´90 proliferaron numerosas técnicas de representación y adquisición del conocimiento, con ese fin.
Geoffrey Hinton

En esa época, el objetivo central de la IA se resumía en desarrollar un modelo de representación de ideas y un algoritmo para adquirir datos del entorno, que permitiera a un ordenador "aprender", simulando el proceso de aprendizaje humano.  A partir de este aprendizaje, el ordenador sería capaz de responder a situaciones, basadas en esta "experiencia" previa.  Es lo que todavía se llama "machine learning" o "adquisición automática de conocimiento".
 
Geoffrey Hinton
No vamos a entrar a analizar estos modelos en detalle (hay mucha información disponible en la red), pero sepamos que sobre esta materia se desarrollaron numerosas líneas de investigación, que desarrollaron diferentes modelos de representación y algoritmos, cada uno con sus líderes en sus campos de investigación: 

  • árboles de inducción, 
  • redes neuronales,
  • razonamiento por analogías,
  • redes semánticas
  • lógica difusa
  • optimización Bayesiana
  • algoritmos genéticos
Sin embargo, como decíamos antes, después de algunos años de auge no se consiguieron resultados espectaculares y después de 1987 el entusiasmo se fue marchitando. Por supuesto, en los años siguientes muchos de estos modelos consiguieron éxitos parciales y aplicaciones útiles, en lo que se llamó Business Intelligence o Data Mining, pero en contextos muy acotados, como se relata aquí

Por ejemplo, la banca o las empresas aseguradoras fueron precursoras en hacer un profiling de sus clientes (con todos los datos) de que disponían para evaluar los niveles de riesgo de conceder un crédito o aprobar una póliza, basados en árboles de inducción o regresiones estadísticas.  La lógica difusa se incorporó en mecanismos de control de algunos electrodomésticos y así otros. Deep Blue también logró derrotar a Garry Kasparov en 1997.

La "explosión de datos" actual que llamamos Big Data ha vuelto a poner sobre el tapete una cantidad de técnicas de aprendizaje automáticos desarrolladas en los ´80 y ´90, revisitándolas y reanalizando su verdadera contribución y valor. Un ejemplo es la historia de Hinton, experto en redes neuronales, cuyas técnicas, mejoradas y ampliadas, hoy en día utiliza Google para desarrollar sus algoritmos de reconocimiento de imágenes, con unos resultados que mejoran cada día como podemos ver aquí (http://venturebeat.com/2015/03/18/google-expert-explains-why-deep-learning-neural-nets-are-hot-in-everything-from-games-to-recognizing-cats/). (Google pagó U$S 400 millones por la empresa titular de las patentes que Hinton registró con dos de sus discípulos).

La movida de Google no es nada casual. La mayor parte de las empresas de Silicon Valley que tratan con la "explosión de datos" han seguido la misma línea. Muchas veces, contratando a colegas y discípulos de Hinton.  Es que el desarrollo de la técnica de redes neuronales, una vez probada, quiere ser imitado por todos.  Facebook creó un Centro de Investigación en IA en Paris, al mando de Yann Le Cun (http://venturebeat.com/2015/06/02/facebook-opens-an-artificial-intelligence-research-lab-in-paris/). Según el veterano Kevin Kelly, esta es una tendencia general de industria, basados en la revolución de Big Data (http://www.wired.com/2014/10/future-of-artificial-intelligence/).


(Por cierto, la técnica de redes neuronales se basa, vagamente, en las investigaciones de Santiago Ramón y Cajal sobre las neuronas humanas).

¿Es posible que esto haya ocurrido con otras investigaciones en materia de Inteligencia Artificial? Que estas investigaciones no fracasaran porque estuvieran mal orientadas sino porque en ese momento se carecía de la tecnología para obtener resultados eficientemente, con un coste y tiempo razonable.  Algo parecido a los diseños de Leonardo Da Vinci: teóricamente brillantes, pero imposibles de construir en una época en la que no se disponía de la tecnología necesaria.

Parece posible.  Tenemos dos condiciones diferenciales respecto del pasado: (1) una mucho mayor capacidad de proceso y (2) una enorme facilidad para capturar datos, traducido, experiencia.  Resulta mucho más fácil hoy construir modelos de aprendizaje basados en millones de experiencias que nuestros ordenadores personales, equipos móviles, wearables y sensores de IoT son capaces de detectar a cada instante. Nunca hubo tanta experiencia para analizar ni tanta eficiencia para adquirir y codificar datos electrónicamente para que los pueda procesar un computador.

Pero veamos algunas de las experiencias de otros viejos colegas de Geoffrey Hinton.

Doug Lenat y Cyc

Cuando estaba en la Universidad llegó a mis manos una fotocopia de muy mala calidad de un paper del año 1986 que describía un proyecto que parecía imposible: codificar computacionalmente el sentido común humano.  El autor era un tal Doug Lenat, un profesor de Carnegie Mellon y Stanford que, en 1984, había dejado todo para dedicarse a este proyecto en MCC (Microelectronic and Computer Technology Corporation), un consorcio creado entre el Gobierno de los EE.UU. y la industria informática para desarrollar investigación avanzada en computación, incluyendo IA.

El proyecto de Doug Lenat en si no agregaba grandes novedades a las técnicas existentes, Lenat diseñó un mecanismo de representación de conocimiento basado en reglas y un algoritmo de inferencia, basado en lógica de primer orden, todo bastante conocido.  Lo novedoso de la aproximación era encarar una tarea a muy largo plazo de seleccionar, codificar y cargar la base de datos del Cyc (nombre del sistema, extraído de Encyclopedia), con todo el conocimiento del sentido común humano, formulado en base a reglas computacionales.
Doug Lenat-Foto oficial de Cycorp

El proyecto parecía una quimera. Lenat mismo calculaba que se necesitarían 350 años para completar la carga del sistema.  En un contexto donde los avances son permanentes y se exigen resultados al trimestre, la planificación a largo plazo parecía ridícula y que este se cancelaría apenas surgieran dudas sobre el resultado o hubiera necesidad de hacer recortes presupuestarios.  Así recibió también duras críticas de sus colegas. Pero Lenat persistió.

Para dar un ejemplo del tipo de conocimiento que se cargaba en el sistema, basta decir que había que enseñar a Cyc cosas como: "Un perro es un animal", "Todos los animales son seres vivos" para que el sistema pudiese inferir que "Todos los perros son seres vivos" y heredara como propiedad, todas las características que Cyc sabía que tienen los seres vivos.  Y esto para todos los campos del conocimiento humano ("El sol sale todos los días por el este", etc).

Después de 10 años de trabajo silencioso y perfil muy bajo en 1994, los activos de Cyc se escindieron de MCC y formaron una compañía Cycorp, presidida por Lenat.  Volví a tener noticias de ellos por el libro "Brainmakers" de David Freedman publicando en 1995, que describía el proyecto pero seguía sin haber resultados a la vista.

En 2002, después de 18 años de trabajo, Cycorp liberó una primera versión con 6,000 conceptos y 60,000 "hechos".  Parece poco pero, desde entonces, el trabajo se ha ido acelerando considerablemente. En 2012, ya manejaba 239,000 conceptos y más de 2 millones de hechos. En un reportaje de julio de 2014, Lenat ya anunciaba que Cyc podía "recibir instrucciones en lenguaje coloquial, hablado, hacer las inferencias apropiadas y ejecutar instrucciones son necesidad de programar millones de líneas de código", y ya se especula con el posible valor de la compañía dado el interés de Google, IBM o Apple por una mecanismo así, capaz de impulsar a un asistente personal tipo Siri (como se muestra en este artículo http://www.huffingtonpost.co.uk/2014/07/03/cycorp-ai_n_5554318.html).

¿Cómo lo había logrado? ¿Y exactamente qué había logrado? Cyc se había beneficiado enormemente de la rápida evolución de algunas tecnologías que eran muy incipientes en 1984.  En primer lugar,  vez, los procesadores cumplían la ley de Moore, duplicando su capacidad cada 18 meses.  Pero, sobre todo, lo ayudó el avance en la digitalización de los contenidos audiovisuales, la explosión de Internet y las redes sociales y, finalmente, la "explosión" de datos de los últimos años.

Lo que antes costaba horas en preparar, casos basados en texto tecleados a mano, escaneos lentos, grabaciones analógicas, de repente pasaron a ser ficheros electrónicos en diversos formatos.  Entrenar a Cyc con un patrón de voz sólo requería hacer un upload de un archivo, las imágenes se cargaban ya digitalizadas, los casos o hechos se podía cargar desde enciclopedias digitales, blogs, redes sociales o ficheros electrónicos de muy distinto origen.  Como se ve en esta nota de la compañía, incluso consiguieron alimentar la base de conocimiento enlazando con la Wikipedia (http://www.cyc.com/about/media-coverage/project-boosts-data-growth/). El método de carga se aceleró notablemente.

Actualmente, Cycorp ya está explotando esta tecnología.  Según la compañía realiza trabajos de consultoría e investigación para agencias del Gobierno como IARPA o DARPA. De acuerdo con algunas referencias también colabora en temas de antiterrorismo con el Departamento de Defensa de los EE.UU.  Colabora en otros ámbitos científicos, como en el desarrollo de una interfaz de lenguaje natural para obtener información biomédica, con la Cleveland Clinic.  Se presumen otros joint ventures o colaboraciones con Google y Yahoo.  Incluso se ha dado el lujo de liberar una suite llamada OpenCyc, una versión limitada de código abierto.

Aunque la naturaleza de las actividades de Cycorp todavía es bastante opaca, tanto por las características de las investigaciones, como por los posibles beneficiarios. Doug Lenat, hoy de 65 años, ya no mantiene un perfil tan bajo.  Se habla de él y se publican notas en la prensa. Seguramente, volveremos a saber de él en los próximos años, en relación con las nuevos desarrollos de interfaz hombre-máquina que vengan de Silicon Valley.

Roger Schank

Este profesor de Yale en los años ´70, es otra de las leyendas en los orígenes de la Inteligencia Artificial.  En 1974 ya trabajaba en una tecnología para leer e interpretar periódicos y en 1981 pasó a dirigir el Laboratorio de Inteligencia Artifical.  Aunque al principio siguió los paradigmas lógicos establecidos por los "fundadores" de la disciplina (Minsky, Newell, etc), pronto adoptó otro enfoque, crítico con el de aquellos.   En 1982, publicó "Dynamic Memory: A Theory of Learning in Computers and People", donde estableció las bases de las técnicas Case-based Reasoning (aprendizaje por analogías).

En 1991, cuando junto con Fernanda Puyuelo y Andrea Cummins, elaboramos un modelo informático que combinaba árboles de inducción con razonamiento por analogías, las ideas de Schank estaban en su auge. El principio básico es que las máquinas no "razonan" como las personas y por tanto era inútil crear modelos basados en lógica formal.  En su lugar, Schank proponía una forma de inferencia más utilitaria basada en la comparación de casos similares, con un fin específico, mucho más práctico para el mundo de los negocios. Janet Kolodner continuó su trabajo y desarrolló sistemas experimentales con su trabajo.

No obstante, para la expectativas generadas, el resultado decepcionó.  Por supuesto se desarrollaron muchos sistemas basados en esta tecnología y dominaron en algunos campos, como la atención al cliente o de averías, pero no alcanzó a penetrar en otros campos prometedores como el área de Salud o la Ingeniería. Simplemente no había suficientes casos, suficiente capacidad de proceso ni algoritmos suficientemente "fuertes" para determinar la analogía en algunos contextos con muchas variables.

El prestigio de Shanck era tal que en 1989, Andersen Consulting lo contrató por 10 años y le dio U$S 30 millones de presupuesto, que luego fueron ampliados por otros aportes públicos y privados, para desarrollar el ILS (Instituto for Learning Sciences) en la Northwestern University con el fin de desarrollar software y técnicas en el nuevo campo de e-Learning. Schank había llegado a la conclusión de que se podía aprender mucho sobre cómo entrenar una máquina, si se aprendía sobre cómo enseñar a un ser humano. Cinco años después se habían producido las primeras versiones de un modelo de aprendizaje (SCC, Story-Centered Curriculum) , soportado en software.  

Sin embargo, según el propio Schank, a mediados de los ´90 el mercado había cambiado y las Universidades carecían de presupuestos para pagar por un programa que había costado tanto desarrollar, era difícil de mantener y que requería cambios estructurales muy importantes para funcionar eficientemente, así que el proyecto fracasó. El ILS fue luego absorbido por la estructura de la Universidad y Schank dejó su puesto para incorporarse como rector del nuevo campus de la Universidad Carnegie Mellon en Silicon Valley. En 2001, fundó una pequeña compañía para desarrollar contenidos de e-Learning.

Sin embargo, la transformación digital vino en su auxilio y la figura de Schank ha resurgido.  La nueva realidad necesita de nuevas técnicas de rápido aprendizaje, adaptación a las situaciones y asistencia on line.  El viejo profesor, hoy de 69 años, comenzó a tener los recursos y la demanda necesaria para aplicar sus ideas sobre el aprendizaje largamente elaboradas.

En 2012 creó XTOL (xtol.com), una nueva empresa para diseñar programas de formación online-presenciales para universidades, basado en su método, consiguiendo contratos en varias instituciones de prestigio.  Luego, lanzó EXTRA, una máquina de memoria dinámica para ayudar a las personas a tomar decisiones en tiempo real. Consiguió éxito en el área de salud, negocios y las FF.AA.

La realidad supera a la ficción



Como la película de Space Cowboys (2000) de Clint Eastwood, estamos viendo se rescata a  sexagenarios precursores de la IA de los ´70 y ´80 (y sus discípulos) para retomar una tecnología "olvidada" pero que desarrollaron y conocen como nadie (como en la película, ¿Puede haber algo de marketing en esto ?). Así, están en el centro de la evolución de la era digital o del Big Data.  Un bendición para ellos, que ahora disponen de los recursos y la tecnología para cumplir sus sueños.







No hay comentarios:

Publicar un comentario