Perspectivas del deep symbolic learning

La historia de la inteligencia artificial siempre ha estado marcada por el debate entre el enfoque simbólico y el enfoque conexionista. Este debate ha marcado las distintas etapas del machine learning y del procesamiento del lenguaje natural:

  • Un primer período a partir de los años 50 marcado por el Test de Turing, el racionalismo y el estructuralismo. En la época se usaban los sistemas expertos caracterizados por el uso de hechos y reglas de inferencia para generar conocimiento. Se consideraba que el uso de sistemas formales con símbolos, axiomas y reglas de deducción permitían generar el aprendizaje.
  • Una segunda época a partir de 1990 marcada por el empiricismo. Se empezaron a usar modelos estadísticos utilizando una cantidad apreciable de datos. Debido a la limitada pero creciente capacidad de computación de entonces, predominaban redes neuronales de pocas capas, los llamados “shallow models”. Era la época de los HMM (Hidden Markov Models), redes bayesianas, SVM (Support Vector Machine), arboles de decisión y redes neuronales básicas. Estos modelos funcionaban mucho mejor que los basados en sistemas expertos para muchas tareas de procesamiento de lenguaje. Era la época de los modelos de traducción automática de IBM.
  • Una tercera época, a partir del 2005, marcada por el Deep Learning. Los modelos de la segunda época, aunque habían mejorado las tasas de acierto, estaban lejos de los niveles alcanzados por las personas. La disponibilidad de gran cantidad de datos, el uso de GPUs y el pre-entrenamiento inicial de manera no supervisada permitieron una gran mejora en los modelos basados en redes neuronales. Los “Word Embeddings” han permitido crear representaciones distribuidas de manera automática que son posteriormente procesadas por redes neuronales de muchas capas. El uso de modelos de deep learning ha mejorado mucho tareas como traducción automática, sistemas pregunta-respuesta, modelado de lenguaje, clasificación de textos, etc. Los modelos seq2seq bidireccionales con mecanismo de atención se han convertido en los últimos años en un estándar para muchas tareas de procesamiento de lenguaje natural.

Cada enfoque tiene características muy diferenciadas. El enfoque simbólico:

  • Opera con símbolos.
  • Se basa en la inferencia lógica, es exacta y produce símbolos o sentencias a partir de símbolos.
  • Usa diferentes componentes de la lingüística para el procesamiento del lenguaje.
  • Es independiente del tiempo y del agente.

En cambo, el enfoque conexionista:

  • El conocimiento se representa de manera distribuida en las distintas capas de una red neuronal.
  • Las distintas capas van transformando el conocimiento a través de operaciones implícitas sobre las representaciones.
  • Está muy relacionado con la percepción y las tareas asociadas.
  • Se basa en el aprendizaje estadístico, que le permite generalizar.
  • Depende del tiempo y del agente.

El enfoque conexionista actual del procesamiento de lenguaje natural, basado en deep learning, realiza tres pasos: 1. Codificar las palabras/frases en vectores. 2. Procesamiento en el espacio vectorial para generar una respuesta. 3. Convertir la respuesta a palabras/frases.

Como se ve en la figura, el foco se ha desplazado de tener los componentes lingüísticos apropiados (estructura sintáctica, semántica, etc.) a tener la arquitectura de redes neuronales adecuada (word embeddings, redes recurrentes, atención, etc.) Básicamente, se ha sustituido la lógica con símbolos por el algebra con vectores.

Redes neuronales vs Símbolos en procesamiento de lenguaje natural

Sin embargo, en los últimos años está cobrando importancia combinar lo mejor de ambos en el enfoque neurosimbólico (www.neural-symbolic.org). Este enfoque intenta integrar el aprendizaje estadístico con la inferencia y capacidad deductiva de la lógica. Como dijo L. Valiant “combining the logical nature of reasoning and the statistical nature of learning”.

El enfoque neurosimbólico intenta extraer de manera explícita el conocimiento generado por las redes neuronales para poder razonar de manera lógica sobre él y también a su vez guiar el aprendizaje de estas redes. Así se tendrían modelos robustos, que generalizan bien y explicables. En el siguiente artículo se puede ver los principales retos y contribuciones de este enfoque y en este un resumen de las últimas novedades.

Sin duda, si se producen avances en integrar el deep learning y la lógica se habrá avanzado más hacia una inteligencia general que use el razonamiento además de la percepción.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Orgullosamente ofrecido por WordPress | Tema: Baskerville 2 por Anders Noren.

Subir ↑

A %d blogueros les gusta esto: