La robustez y la capacidad de generalización de los modelos de aprendizaje automático

Como investigadores en IA, a menudo nos dejamos seducir por métricas de validación interna casi perfectas. De hecho, los modelos actuales de aprendizaje profundo (incluyendo los grandes modelos del lenguaje) destacan por la enorme precisión que pueden alcanzar en tareas concretas.

Sin embargo, que acierten mucho no significa necesariamente que los patrones que han aprendido sean fiables o que realmente hayan «entendido» la raíz del problema. A veces, esta aparente precisión es un espejismo. Los modelos dirigidos por datos simplemente se dedican a buscar regularidades en los datos que luego son instanciadas como patrones, esas regularidades pueden no tener nada que ver con la semántica del problema a resolver. El resultado es una IA que brilla en el laboratorio, pero falla estrepitosamente en el mundo real.

En las ciencias del comportamiento este fenómeno es conocido como efecto Clever Hans en honor al famoso caballo que, a principios del siglo XX, dejó a la sociedad boquiabierta por su supuesta habilidad para resolver problemas matemáticos. Por un momento, se le atribuyeron al animal unas capacidades cognitivas para resolver problemas aritméticos que hasta entonces se creían exclusivas de los seres humanos. La realidad era menos mágica: el caballo no sabía sumar, sino que era un experto interpretando las señales visuales e inconscientes que su entrenador le daba con el lenguaje corporal al plantearle los problemas.

De la misma manera, un modelo de IA víctima del ‘efecto Clever Hans’ puede tener un rendimiento sobresaliente en situaciones que se parecen a las que ya memorizó durante su entrenamiento. Sin embargo, cuando le quitamos las «pistas falsas» y lo aplicamos en contextos del mundo real, su rendimiento cae en picado y se vuelve completamente ineficaz.

Sobre la robustez y la capacidad de generalización de los modelos de aprendizaje automático trata el último trabajo de Andrés Montoro Montarroso miembro fundador de I2SC junto con investigadores de la Universidad de Jaén y la Universidad de Granada, titulado «Enhancing disinformation detection with explainable AI and named entity replacement«. En este trabajo proponen una metodología para identificar características espúreas mediante técnicas de explicabilidad para mejorar la capacidad de generalización de los modelos de aprendizaje automático en la tarea de detección automática de contenido desinformativo.

Al aplicar este enfoque, observan que, aunque la precisión interna (dataset con el que se ha entrenado el modelo) cae ligeramente (por ejemplo, de un 98% a un 96 %), la capacidad de generalización en entornos desconocidos (conjuntos de datos distintos al de entrenamiento, pero dentro del mismo dominio) aumenta drásticamente, obteniendo una mejora promedio del 44,14% en la capacidad de generalización en datos externos.

Optimizar un modelo para ganar una competición teniendo en cuenta únicamente la precisión, es relativamente sencillo; construir uno que no herede los sesgos de sus datos es el verdadero reto. La IA Confiable exige que prioricemos la robustez y la explicabilidad sobre el porcentaje de acierto en un entorno controlado.