En los últimos años estamos viendo una carrera entre los diferentes fabricantes y proveedores de vehículos hacia la conducción autónoma. Tesla, Waymo, Mobileye, Nvidia, están destinando grandes cantidades de recursos para elevar la autonomía de los vehículos.
El objetivo es que el vehículo, a partir de la información captada a través de los sensores, tome las mejores decisiones para llegar al destino con unos requisitos mínimos de seguridad y eficiencia.
Este problema, el de un agente en un entorno comportándose de manera racional, es el objetivo de la inteligencia artificial moderna, frente a los otros objetivos de comportarse como un humano, pensar como un humano y pensar de manera racional.
A simple vista, el marco matemático ideal para modelar la toma de decisiones en este escenario serían los procesos de decisión de Markov. En cada instante de tiempo, el proceso se encuentra en un estado s(t), debe elegir una acción a(t) y en el siguiente instante se moverá a un nuevo estado s(t+1), que depende del estado anterior y de la acción tomada, recibiendo una recompensa R.
Estos procesos son la base del reinforcement learning (aprendizaje reforzado), uno de los modelos de aprendizaje automático junto con el supervisado, no-supervisado y auto-supervisado.
Este modelo es muy básico. Sin embargo, un sistema de conducción autónoma está compuesto de muchos subsistemas, muchos de ellos desarrollados en serie y todos clave para conseguir el objetivo.

Como se puede ver en la figura, que sigue el esquema del clásico libro Creating Autonomous Vehicle Systems, tenemos la parte de algoritmos, que incluye los sensores, la percepción y la decisión, la parte del sistema operativo y el hardware, que integran e implementan los algoritmos, y la plataforma cloud, que almacena los mapas y los datos y realiza el entrenamiento y simulación de los algoritmos.
En la parte de sensores, la combinación del GPS y el IMU permiten localizar el vehículo, el LiDAR se utiliza para hacer mapas, localización y evitar obstáculos, las cámaras para detectar y seguir objetos y el radar sirve para evitar obstáculos.
Los algoritmos de percepción permiten entender el entorno del vehículo a través de la localización y la detección y seguimiento de objetos. Una vez se ha entendido el entorno, los módulos de decisión predicen las acciones futuras para poder elaborar una planificación de la trayectoria.
En un artículo sobre deep symbolic learning, veíamos que en procesamiento de lenguaje natural se había pasado de tener los componentes lingüísticos apropiados (análisis sintáctica, semántico, etc.) a tener simplemente un modelo diferenciable extremo a extremo basado en redes neuronales.
En conducción autónoma estamos viendo la misma evolución y debates similares. Desde los partidarios de usar una secuencia de módulos, resolviendo cada uno con algoritmos clásicos, hasta los partidarios de usar modelos de deep learning extremo a extremo.
En 2016 Nvidia desarrolló el primer modelo de deep learning extremo a extremo para conducción autónoma. Entrenaron una red convolucional (CNN) que mapeaba los pixeles de una cámara frontal a los comandos y ángulos de conducción del volante. La única señal de entrenamiento eran los ángulos de la conducción y aún así el sistema detectaba la forma de las calles y los obstáculos necesarios para la conducción.
Sin embargo, a diferencia del procesamiento de lenguaje, donde la entrada y salida en cada instante es una posible palabra de un diccionario acotado, en los vehículos autónomos el espacio de posibles entradas, espacio de variable continua, es mucho mayor.
La cantidad posible de imágenes y situaciones a las que se puede enfrentar un vehículo es enorme y mucho mayor que las situaciones típicas que se pueden ver en las simulaciones o en los vehículos de prueba usados para entrenar los algoritmos. Esto hace que incluso utilizando modelos de deep learning de miles de millones de parámetros, estos no modelen datos y situaciones que pueden ocurrir pero que están fuera de la distribución de probabilidad usada en el entrenamiento del modelo.
Por eso este problema se aproxima a la inteligencia artificial general, ya que necesita un razonamiento y una lógica que permitan predecir y actuar ante situaciones no vistas anteriormente, de la misma forma que hacemos los humanos. Nosotros, podemos estar conduciendo y ver por primera vez una bici colgada detrás de un camión y deducir que no estamos ante una bicicleta que está circulando sino solamente ante un camión, mientras que un algoritmo podría tener problemas ante esta situación OOD (out of distribution) de entrenamiento.
Esto plantea un debate entre la estrategia a seguir, debate que se ha traslado a los principales fabricantes. El enfoque de Tesla es que estas situaciones atípicas se pueden superar con más datos, que se recaban específicamente por las cámaras en situaciones concretas y permiten reentrenar el modelo de deep learning, validarlo y enviarlo otra vez a producción a los coches. De esta forma, usando solo cámaras como sensores y haciendo una mejora incremental de un modelo de deep learning basado en transformers, Tesla plantea mejorar gradualmente su sistema.
Otros fabricantes, como Waymo, se basan en completos mapas realizados con LiDAR que cartografían las ciudades para poder tener un nivel de detalle de las calles y los obstáculos que alimenten los algoritmos de decisión. Mobileye usa los dos enfoques, conducción autónoma basada en cámaras y conducción autónoma basada en LiDAR, de manera combinada y complementaria para aumentar la seguridad.
En esta nueva sección, analizaremos los avances de los algoritmos y tecnologías empleadas en los vehículos autónomos y la diferente evolución de las estrategias y sistemas empleados por los fabricantes y proveedores.
Deja una respuesta