El teorema No-Free-Lunch (NFL) de optimización nos dice que no existe un algoritmo de aprendizaje universal. En tareas de clasificación, para cada algoritmo de aprendizaje, siempre existirá una distribución de probabilidad (que genera los datos entrada-salida) en la que falle. Una definición intuitiva, como la aportada en el libro de Shalev-Shwartz y Ben-David, establece que... Seguir leyendo →
Problema del desvanecimiento del gradiente (vanishing gradient problem)
Como hemos comentado en otros posts, en los modelos de machine learning el objetivo es encontrar los parámetros del modelo que minimizan una función de coste. En redes neuronales se usa el algoritmo de descenso por gradiente, que va realizando sobre los parámetros iteraciones proporcionales al valor negativo del gradiente en el punto actual. El... Seguir leyendo →
Optimización, complejidad computacional y deep learning
En la base de muchos algoritmos de machine learning está encontrar los parámetros del modelo que minimizan una función de coste dados los datos de entrenamiento. Este problema de optimización es clave ya que si tenemos garantizada su solución podremos encontrar los parámetros que minimizan el error. Las claves para que este problema de optimización... Seguir leyendo →