En los últimos años hemos visto un gran desarrollo y éxito del deep learning en el aprendizaje automático y la inteligencia artificial. El deep learning utiliza redes neuronales con muchas capas en las que cada capa extrae información de la capa anterior formando una jerarquía de representaciones.
Como hemos comentado en otras entradas, el éxito del Deep Learning se debe a que para ciertas tareas es muy importante estructurar la información de entrada de manera distribuida y jerárquica en capas de diferente nivel de abstracción.
Mucho se ha hablado del éxito de las redes neuronales y de su capacidad para aproximar cualquier función. Pero también es importante hablar de por qué los problemas y las funciones a los que nos enfrentamos se resuelven bien usando Deep Learning. ¿Qué características tienen ciertos problemas naturales de clasificación, regresión y extracción de información que los hacen apropiados para este tipo de técnicas?

Pues bien, Henry W. Lin, Max Tegmark y David Rolnick responden a esta cuestión en un artículo titulado “Why does deep and cheap learning work so well?” En él, argumentan que las clases de funciones de interés práctico pueden ser aproximadas con redes neuronales con exponencialmente menos parámetros que las funciones genéricas.
Indican que, aunque las redes neuronales sólo funcionan bien para una fracción pequeña de las posibles entradas, el conjunto de datos que nos preocupan en el aprendizaje automático también pertenece a una pequeña fracción de los posibles conjuntos.
Para este conjunto de datos, las distribuciones de probabilidad tienen ciertas propiedades, como ser funciones polinómicas de orden bajo, tener localidad o simetrías, que las hacen apropiadas para ser representadas por redes neuronales.
Además, argumentan que cuando el proceso que genera los datos es un proceso generativo jerárquico, una red neuronal profunda (deep learning) es muy eficiente para aprovechar esta jeraquía y composicionalidad.
Por ejemplo, si la imagen de un gato se forma combinando jerárquicamente componentes cada vez más abstractos, una red neuronal profunda (deep learning) que vaya añadiendo una capa encima de otra implementará el proceso generativo de la imagen eficientemente.
Está claro que este proceso generativo artifical perderá mucha información respecto a la imagen original, pero es suficiente (como comentamos en nuestro post sobre información relevante) con que en cada capa se mantenga la información relevante para la tarea concreta.
Sin duda, su artículo es una gran contribución para entender por qué el deep learning está funcionando tan bien en gran cantidad de tareas.