En este post vamos a hacer una introducción al mecanismo de atención usado en modelos seq2seq de deep learning y concretamente en procesamiento de lenguaje natural. La descripción va a tener el nivel de detalle suficiente para que se entienda la esencia y el concepto de atención. Los modelos seq2seq (sentence to sentence), utilizados para... Seguir leyendo →
Problema del desvanecimiento del gradiente (vanishing gradient problem)
Como hemos comentado en otros posts, en los modelos de machine learning el objetivo es encontrar los parámetros del modelo que minimizan una función de coste. En redes neuronales se usa el algoritmo de descenso por gradiente, que va realizando sobre los parámetros iteraciones proporcionales al valor negativo del gradiente en el punto actual. El... Seguir leyendo →