Cuando hablábamos sobre información relevante y suficiente en machine learning describíamos el método del cuello de botella de la información (information bottleneck method) de Tishby.
El método calcula cuánto resumir o reducir la variable X preservando la máxima información sobre la variable relevante objetivo Y usando la información mutua.
En los últimos años Tishby y sus colaboradores han tratado de aplicar el método al funcionamiento del Deep Learning. No es de extrañar que el resultado haya sido un éxito ya que su objetivo siempre ha sido tratar de averiguar cuáles son las características más importantes de cualquier entrada (palabras, imágenes, etc.) y cómo extraerlas.
En sus simulaciones, han analizado cuánta información retiene cada capa de la red neuronal de la entrada y de la salida (objetivo) y cómo varía esta información con el proceso de entrenamiento y pruebas:
- Cuando la red empieza a ajustar sus conexiones por descenso de gradiente estocástico, la información que retiene de la entrada permanece constante o se incrementa ligeramente para poder representar los patrones de la entrada.
- Entonces empieza la fase de compresión y la red se desprende de parte de la información de la entrada, reteniendo sólo las características más estructurales y relevantes para la salida (objetivo). Es como si se eliminara el ruido comprimiendo la información. En esta fase es donde mejora la generalización de la red clasificando mejor las entradas no vistas en el entrenamiento.
El interés que ha despertado era de esperar ya que la base del machine learning es la extracción de características relevantes de la entrada que permitan disminuir la entropía del objetivo o salida.
En el vídeo de la presentación se puede ver una explicación del proceso y cómo va cambiando la información de la entrada y la salidad que retiene cada capa de la red.
Aunque queda por ver si el método se puede aplicar a otras arquitecturas de Deep Learning, sin duda el trabajo de Tishby puede sentar las bases para establecer un principio general de aprendizaje para las redes profundas (deep learning).