En un post anterior, utilizamos una red neuronal convolucional para ver como evolucionaban las representaciones en las capas intermedias en el proceso de entrenamiento.
La arquitectura de la red convolucional empleada y un resumen de ella se pueden ver a continuación:
Una de las capas más utilizadas en una red convolucional es la capa de pooling, que combina las salidas de un clúster de neuronas de una capa en una única neurona en la siguiente capa. En el ejemplo, el pooling se realiza sobre un clúster de tamaño 2×2 tomando el valor máximo de las neuronas del clúster.
A continuación se puede ver un ejemplo ilustrativo de un max pooling con un filtro 2×2 y stride 2.
En la red neuronal del ejemplo tenemos dos capas de pooling después de las capas que realizan las convoluciones. Observamos el efecto del primer pooling cuando introducimos un 4 en la red.
Como se puede observar, el pooling reduce el tamaño de la imagen de 28×28 a 14×14. Esta operación reduce el detalle que es necesario procesar en la siguiente capa y proporciona cierta invarianza traslacional: permite reconocer el mismo elemento en una ubicación diferente pero la representación formada no distingue el cambio de ubicación.
Sin embargo, mediante el pooling se pierde la información de cómo están espacialmente relacionados las diferentes componentes de una imagen. Una red convolucional tendría problemas para diferenciar una imagen de otra con las relaciones espaciales entre los componentes cambiadas. P.e. una cara normal de una cara donde la boca y una oreja se han intercambiado.
La equivarianza traslacional permite mantener la información de las relaciones espaciales entre componentes. La equivarianza detectaría que se ha intercambiado la boca y la oreja y no es una cara.
Si f representa la función que procesa o forma la representación de la imagen, y T es una función que realiza una transformación de la imagen X, f es invariante ante la transformación T si f(T(X)=f(X). En cambio, f es equivariante ante la transformación T si f(T(X)=T(f(X)).
Para poder mantener las relaciones espaciales entre los componente internos de una imagen, se crearon las cápsulas (CapsNets), descritas en el siguiente artículo.