Expresividad, potencial y necesaria, de las redes neuronales

El deep learning ha proporcionado grandes avances en problemas que hace unos años tenían tasas de errores considerables. Sin embargo, ese éxito no ha venido acompañado de una justificación teórica y formal de la eficacia del deep learning.

Sabemos, por el teorema de aproximación universal, que una red neuronal de una capa y un número finito de neuronas puede aproximar cualquier función continúa en un subconjunto compacto de Rn usando ciertas funciones de activación.

Con este teorema tenemos garantizado que podemos aproximar cualquier relación entrada-salida. Pero es esta la única justificación teórica del éxito del deep learning, ¿O existen otros indicios teóricos de su éxito?

Consideremos un problema clásico de clasificación, donde tenemos un conjunto de datos de entrada {x1, x2, …, xm} y un conjunto de salidas {y1, y2, …, ym} donde cada xi ϵ Rn, es decir es un vector de n dimensiones, y cada yi ϵ N, es un número natural.

El problema de clasificación trata de encontrar la función hθ(xi), de entre el conjunto de funciones posibles, que predice yi con el menor error posible.

Conjunto de problemas potenciales y reales, redes neuronales

La pregunta que surge es si el conjunto de funciones posibles es tan grande, por qué los modelos de deep learning utilizados en la práctica tienen un número de parámetros manejable. La clave entonces es saber si el éxito de las redes neuronales profundas no sólo proviene de que son aproximadores universales sino también de que el conjunto de problemas a aproximar tiene cierta estructura y regularidades.

Imaginemos que queremos clasificar en dos etiquetas imágenes en escala de grises de 1000 pixels. Suponiendo que cada pixel pueda tomar 1 de 256 valores tenemos 2561000 imágenes y esto nos hace una idea del tamaño de la entrada y la complejidad de la función.

Dado que en la actualidad para problemas de ese tipo se emplean redes neuronales con un tamaño manejable de parámetros, decenas y cientos de miles, esto nos indica que el conjunto de funciones que nos interesa aproximar es más reducido que el conjunto de funciones posibles para un mismo tamaño de la entrada.

Esta ventaja práctica se debe, como vimos en nuestro post sobre por qué el deep learning funciona tan bien, a que los problemas que nos interesan tienen cierta estructura y regularidades que son aprovechadas por las redes neuronales.

Esta estructura en los problemas se corresponde con simetrías y regularidades espaciales y temporales que son aprovechadas para diseñar algoritmos más eficientes:

  • Como ya hemos hablado en otros posts, Tishby ha demostrado que a medida que la información de la entrada se va procesando en una red neuronal profunda, la variable de entrada x se va comprimiendo, preservando a la vez la máxima información sobre la variable objetivo y. Es decir, se va desechando la información redundante o no necesaria de la entrada.
  • Cuando intentamos aproximar procesos generativos jerárquicos, como son las imágenes, estos se representan usando una composición de funciones f1∘ f2∘ f3…∘ fn, composición que se aproxima bien usando redes neuronales de varias capas.
  • En problemas con dependencia temporal, como el procesamiento de lenguaje o las series temporales, es muy importante tener en cuenta las entradas y los estados anteriores cuando se procesa la entrada actual. Esto es lo que consiguen las RNN y las LSTM.
  • Las redes convolucionales aprovechan la invarianza traslacional (cambios en la posiciones de un elemento no alteran el resultado final) para usar los mismos parámetros en el filtro convolucional y reducir las imágenes con el pooling.
  • En los mecanismos de atención usados en redes seq2seq, cuando se está decodificando una frase se asignan diferentes pesos a cada estado codificado, centrándose así en diferentes partes de la entrada.

En general, como hemos visto, es la capacidad expresiva de las redes neuronales unida a la estructura y simetrías del problema a tratar, que acotan el conjunto de funciones posibles al subconjunto de funciones interesantes, las que explican el éxito del deep learning. En el futuro este seguirá viniendo de encontrar esta estructura y simetrías y trasladarlas al diseño de algoritmos más eficientes.

Por eso, veremos más iniciativas como el congreso “Physics ∩ ML” (Physics Meets Machine learning) organizado hace unos meses por Microsoft donde se estudia el deep learning desde el punto de vista de la física.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Orgullosamente ofrecido por WordPress | Tema: Baskerville 2 por Anders Noren.

Subir ↑

A %d blogueros les gusta esto: