Debates

En esta página comentaremos los últimos avances, discusiones y debates en deep learning y computación.

¿Necesitan los modelos de machine learning más estructura innata?

Siempre que usamos un algoritmo de machine learning estamos asumiendo una estructura en el algoritmo que facilita el procedimiento de aprendizaje. Por ejemplo en deep learning asumimos que los problemas a los que nos enfrentamos tienen una composicionalidad jerárquica que facilita su aprendizaje con redes neuronales de muchas capas (ver por qué el deep learning funciona tan bien) . En el procesamiento del lenguaje natural asumimos que necesitamos las entradas pasadas (p.e. palabras) además de la entrada actual para extraer información y por eso se usan redes neuronales recurrentes.

Un debate que siempre ha existido en la comunidad de machine learning es si para progresar hacia modelos de inteligencia más generales es necesario asumir más o menos estructura. Es el debate entre naturalismo y empirismo, entre si el aprendizaje viene condicionado y posibilitado por la estructura innata del modelo o simplemente con los datos y el entorno es suficiente. En este debate, Yann LeCun y Gary Marcus argumentan sus posiciones. Gary Marcus, conocido crítico del deep learning, comenta que el aprendizaje de las personas sólo es posible porque en el cerebro se ha desarrollodo la estructura necesaria para relacionar los objetos, el espacio y el tiempo. Y por lo tanto la inteligencia artificial y el machine learning evolucionarían si se incorporara más estructura y primitivas de aprendizaje en los modelos. LeCun, uno de los padres del deep learning, por el contrario argumenta que los avances se han realizado gracias precisamente a eliminar estructura innata en los modelos y que son los datos los que tienen que fijar la estructura del modelo en el proceso de aprendizaje.

Parece que los últimos años están dando la razón a los partidarios de no incorporar estructura previa a los modelos, siempre que haya suficientes datos para que el modelo se adapte a la/s tarea/s a realizar. Un aspecto clave ha sido la aparición de los Transformers, modelos generales de auto-atención que relacionan vectores de manera flexible, y el elevado rendimiento que han logrado en muchas tareas de lenguaje.

Múltiples capas en paralelo para explicar el procesamiento de la información neuronal

Siempre ha existido un debate sobre el nivel de detalle necesario para explicar cómo se procesa la información en el cerebro. ¿Basta con las redes de neurotransmisión o es necesario tener en cuenta los diferentes mecanismos de señalización como los neuromoduladores?

En este artículo (Multilayer adaptive networks in neuronal processing), los autores sugieren que las redes multicapa adaptativas, en las que las capas de neuromoduladores reconfiguran los circuitos neuronales, son un marco adecuado para analizar el procesamiento de la información y explicar interesantes capacidades computacionales.

Este marco abre las puertas a estudiar las capacidades de meta-learning proporcionadas por los neuromoduladores y sus sinergias con los últimos avances en machine learning, concretamente en el aprendizaje de reglas y modelos de aprendizaje.

Unsupervised representation learning (Aprendizaje no supervisado de representaciones)

Uno de los retos actuales en el machine learning es poder aprovechar la gran cantidad de datos no etiquetados para facilitar el proceso de aprendizaje y extraer información. Mientras que el aprendizaje supervisado ha visto un enorme avance en los últimos años, el no supervisado no ha tenido el mismo éxito.

Para que un algoritmo pueda aprender representaciones de manera no supervisada es necesario que cuente con algún tipo de restricción, como señales externas o señales autogeneradas (e.g. ordenando secuencias o reconociendo rotaciones de imágenes).

Este proceso de aprendizaje no-supervisado debe:

  • Extraer las representaciones que separen los factores de variación de los datos.
  • Comprimir la entrada manteniendo la información relevante para el objetivo.
  • Proveer una representación abstracta en un espacio con menos dimensiones en el que operaciones básicas permitan actuar de manera intuitiva.

En este video de DALI 2018 Ferenc Huszár explica muy bien cuáles son los objetivos y principios del aprendizaje de representaciones.

Necesidad de representaciones de alto nivel en machine learning

El objetivo del aprendizaje no supervisado es identificar cierta estructura que explique los factores que causan la variación de los datos observados. Normalmente los métodos empleados como RBM (Restricted Boltzmann machine) o Autoencoders consiguen extraer representaciones que permiten reconstruir los datos de entrada.

Sin embargo, las representaciones obtenidas con estos métodos en ocasiones son muy superficiales y muy cercanas al espacio de entrada (p.e. pixels). Por ello, se hace necesario proponer algoritmos de machine learning que descubran representaciones de alto nivel de los datos y que estas representaciones permitan facilitar funciones cognitivas como percepción, predicción, razonamiento, etc.

En esta presentación, Yoshua Bengio describe dos métodos para identificar esas representaciones. El primero consiste en a través de agentes y políticas actuar sobre el entorno para descubrir factores independientemente controlables y así obtener las representaciones abstractas. El segundo se basa en el “consciousness prior” e intenta descubrir factores abstractos de pocas dimensiones y mucha capacidad predictiva y poder explicatorio. Sería similiar a las ideas que manejan las personas.

Orgullosamente ofrecido por WordPress | Tema: Baskerville 2 por Anders Noren.

Subir ↑

A %d blogueros les gusta esto: