spinner

Visión artificial y personas: cuando el roce hace el cariño

La colaboración entre personas y sistemas inteligentes, nos abre una oportunidad para aprovechar las fortalezas de ambas partes. La visión artificial no es una excepción.

Más allá de las polémicas

Los sistemas de visión artificial, como pueden ser el reconocimiento facial o el etiquetado automático de imágenes, no pasan por su momento más popular. Numerosas son las polémicas que ha levantado este tipo de tecnología en el pasado y el presente reciente. Estos sistemas aún tienen que aprender modales para evitar etiquetar a personas de raza negra como orangutanes, o para no basarse en la vestimenta o el origen étnico para identificar un riesgo.

¿Cómo podríamos mitigar este tipo de problemas? Trabajar contra los sesgos va a ser una lucha constante, pero muchas veces se centra el desarrollo de un sistema en lo que es técnicamente posible, sin tener en cuenta cómo se va a tratar a las personas que interactúen con él. Si al diseñar estos sistemas hacemos foco en la forma en que las personas van a colaborar, esto nos permitiría centrarnos en las necesidades humanas y aprovechar las fortalezas de ambas partes. Frente a sistemas 100% autónomos, la cooperación entre personas y máquinas facilita que se obtengan mejoras de rendimiento más significativas. Sin duda, mejorar la forma en la que se interactúa es una oportunidad en la que aún queda mucho por explorar.

Cuando son las personas las que deben ayudar

En este tipo de interacción, las personas actúan como fuente de la verdad, etiquetando contenido para generar datos de entrenamiento. También pueden intervenir desambiguando o dando feedback sobre las respuestas de un sistema inteligente. El objetivo, en este caso, es el de ayudar a los sistemas de visión artificial a que funcionen mejor y a que sus resultados sean más precisos.

Aunque se ha avanzado mucho, todavía faltan métodos rápidos y eficientes para etiquetar los objetos visuales. La tendencia es la de reducir el coste de interacción para, o bien etiquetar el mayor número de imágenes en el menor tiempo posible, o para optimizar la precisión de la segmentación.

Un ejemplo de esta tendencia es la del estudio Guide Me: Interacting with Deep Networks. En él se plantea cómo podríamos guiar o mejorar el rendimiento de un algoritmo a través de la voz. La idea es actualizar las representaciones de las características en función de las sugerencias que se hagan de forma hablada.

Figura del estudio de Rupprecht, C., Laina, I., Navab, N., Hager, G.D., y Tombari, F.(2018) Guide Me: Interacting with Deep Networks. Computer Vision Foundation.

Figura del estudio de Rupprecht, C., Laina, I., Navab, N., Hager, G.D., y Tombari, F.(2018) Guide Me: Interacting with Deep Networks. Computer Vision Foundation.

En la figura superior se muestra que, en la predicción inicial de la imagen, falta por segmentar el mando. Simplemente con la voz, se indica que falta un mando en la derecha y el sistema es capaz de corregir su respuesta y segmentar el mando.

Otro ejemplo en esta misma línea es el del estudio Human-in-the-loop active learning via brain computer interface. En este caso se apoyan en la actividad cerebral para aprender a identificar y etiquetar objetos clave. Simplemente con la mente, se puede indicar al sistema qué imágenes contienen el objeto clave. En esta situación concreta eran imágenes de satélite y buscaban identificar de forma rápida dónde había hospitales, parkings…

Cuando la visión artificial mejora nuestro rendimiento

En este tipo de interacciones los sistemas nos ofrecen soporte y nos ayudan a realizar mejor nuestras tareas humanas.

Vigilando el entorno y alertando

Podemos estar hablando de sistemas de vigilancia típicos, como pueden ser la videovigilancia de supermercados o aeropuertos. Pero también de sistemas de asistencia en el quirófano o en hospitales. En estos casos se puede alertar si hay pacientes en riesgo de caída o hay alguna desviación en el procedimiento quirúrgico. El sistema vigila el entorno de forma incansable y alerta al ser humano cuando identifica un posible riesgo para que actúe.

Facilitando la comprensión

Las máquinas tienen una mayor capacidad para gestionar conceptos complejos. Podemos apoyarnos en esta fortaleza para comprender cuestiones que de otra forma nos sería más complicado visualizar o entender.

En el proyecto InnerEye, de Microsoft Research Cambridge, se busca facilitar la comprensión de la forma que tiene un tumor cerebral. Se analizan las diferentes capas de un TAC y se compone un modelo en 3D que permite al personal médico entender las áreas afectadas y proponer un tratamiento. Para poder montar este modelo 3D, solo es necesario indicar en una de las capas el área afectada.

Encontramos otro ejemplo en Triton, un software de Gauss Surgical en el que, a través de la visión artificial, tratan de estimar la pérdida de sangre durante una cesárea. Según indican los estudios, con el uso del software en quirófano se identifican hemorragias más significativas con más frecuencia que las estimaciones visuales. Esto tiene un impacto directo en la velocidad de recuperación de las pacientes, reduciendo costes y riesgos en las intervenciones.

Ofreciendo visibilidad del sistema

También los sistemas de visión artificial nos deben proveer un mínimo de información. Esto nos permitirá confiar y saber que todo funciona correctamente. En este caso, en los coches autónomos es donde encontramos los mayores retos. Necesitamos entender que se está reconociendo adecuadamente el entorno y no vamos a atropellar a nadie.

Es muy curiosa la solución que propone Land Rover con su prototipo de coche con ojos. Al igual que miramos a los ojos de la persona que conduce para cerciorarnos de que podemos cruzar, en este prototipo se propone que el coche te mire para darte seguridad y sepas que te ha visto.

Prototipo de coche con ojos de Land Rover

Prototipo de coche con ojos de Land Rover

Cuando la visión artificial facilita la interacción

Hay momentos en los que la visión artificial queda en un segundo plano y se limita a ser un medio de interacción. Puede serlo dando soporte a personas con problemas de visión, describiendo lo que se ve. Otra forma sería a través de realidad aumentada, visualizando información complementaria a la que accedemos con nuestros ojos. Y también podría habilitar la interacción en sí: el desbloqueo del móvil con la cara, las interfaces gestuales o el análisis postural.

Y en la parte de optimización de experiencias, el análisis de las reacciones de las personas nos pueden ayudar a naturalizar las experiencias. Algo así se plantea en el estudio Improving User Perceived Page Load Times Using Gaze. A través de la observación del comportamiento, optimizan la carga de una página web manteniendo la aparente sensación de rapidez.

En conclusión

Está claro que necesitamos una inteligencia artificial más humana, más centrada en las necesidades de las personas. Y esto ocurre especialmente en los sistemas de visión artificial, dado su histórico polémico. Valorar los objetivos que tenemos los seres humanos en las diferentes interacciones, nos va a ayudar a entender las prioridades y a desarrollar una tecnología más útil y sostenible en el tiempo.

Las opiniones vertidas por el autor son enteramente suyas y no siempre representan la opinión de BBVA Next Technologies.

¿Quieres saber que más cosas hacemos en BBVA Next Technologies?