spinner

Bayesian Deep Learning (parte II): ¿Vivimos en un mundo «normal»?

El mundo a nuestro alrededor es complejo y necesitamos hacer suposiciones para vivir en él.
Sin embargo, a veces estas suposiciones nos pueden llevar a decisiones erróneas. En este post veremos por qué el enfoque bayesiano nos puede ayudar a tratar con estas situaciones.

En nuestro día a día necesitamos hacer muchas suposiciones sobre nuestro entorno, porque si no se nos hace inmanejable. Así que nos generamos una idea de cómo son las cosas de manera que podamos entender lo que nos rodea sin que nos suponga un gran esfuerzo. De lo que no solemos darnos cuenta, es de qué cosas damos por hecho.

Solemos tener una serie de ideas en la cabeza de lo que consideramos que suele pasar, de cómo creemos que suele ser el mundo, y a eso lo consideramos normal.

Cuando se empezó a estudiar más metódicamente a la naturaleza y la sociedad, se vio que había multitud de fenómenos sociales, físicos o fisiológicos que se comportaban de manera similar entre sí. Para cada fenómeno, había un valor que se repetía más, y otra serie de valores que se iban alejando de él y eran menos frecuentes cuanto más alejados estuviesen de ese valor.

En el siguiente gráfico de ejemplo el valor más frecuente es el cero y la frecuencia con la que aparecen los demás disminuye muy rápidamente al alejarse de él.

Visualización gráfica de una distribución normal

Esta curva puede ser un poco más ancha o más delgada, más alta o más baja, y está centrada en un valor diferente dependiendo de lo que estamos midiendo, pero siempre tiene esa forma de campana. De hecho, la conocemos como la campana de Gauss. Pero también la conocemos por otro nombre: distribución normal.

Sus dos características básicas son en qué valor está centrada (su media) y cómo de ancha es (su varianza). Cuando representa una (densidad de) probabilidad, el área por debajo de la curva tiene que sumar uno, así que es más alta cuanto más estrecha y al revés.

Además, esta curva se acerca a cómo pensamos intuitivamente: lo que conocemos que suele pasar lo tenemos como más probable y, si es algo diferente, aceptamos que puede suceder, pero es raro. Mucho más raro cuanto más se aleja de lo que conocemos.

A pesar de que esta sea muy común, no todos los fenómenos del mundo se pueden modelar mediante esta campana. Hay muchos fenómenos que siguen otras distribuciones conocidas. Sin embargo, se da la circunstancia de que, incluso los fenómenos que no siguen este patrón, pero se dan un número muy grande de casos de ese fenómeno, se puede aproximar también mediante una campana de este tipo. Este caso nos lo describe el teorema central del límite. Es decir, que incluso si nos equivocamos suponiendo esta campana, si el número de casos es muy grande, entonces podemos tener razón suponiéndola.

Así que podemos ir más o menos tranquilos por la vida suponiendo que todo a nuestro alrededor se comporta como esta campana. ¿O no?

Bueno, cuanto menos, deberíamos tener en cuenta que estamos haciendo esa suposición. Que estamos considerando que, a priori, el mundo es normal a menos que se demuestre lo contrario. O, hablando de una forma un poco más técnica, las conclusiones que sacamos son «suponiendo que», o «dado que» en jerga estadística, el fenómeno sigue una distribución normal. Así, no podemos decir que una persona muy alta es rara sin más, si no que creemos que es rara porque está por encima de la media que conocemos y «dado que» creemos que la altura de las personas se distribuye siguiendo una curva normal.

Este tipo de consideraciones, o hipótesis, que tenemos en la cabeza son condiciones de entorno que estamos poniendo sin darnos cuenta, «a priori», y las podemos denominar «priors». Y es importante ser consciente de ellas, porque quizás nuestras suposiciones no coincidan con la realidad.

Pongamos un ejemplo: es común que se publique en titulares de periódicos cual es el salario medio de un país. En 2018 el salario medio en España fue de 24.009,12€.

Si preguntamos qué significa esto a alguien que no trabaje con estadística, es muy posible que nos diga que hay la misma cantidad de gente cobrando más y cobrando menos que el salario medio, que se ubicaría en la mitad,  y que los salarios se distribuyen, más o menos, siguiendo la campana que hemos visto. No obstante, si miramos la curva real es esta:

Esta curva está bastante lejos de la campana inicial que habíamos visto. Esto se debe a que cuando leemos media muchas personas entienden lo que en realidad se llama mediana.

La media es el total dividido entre el número de muestras, mientras que la mediana es el valor que queda en mitad de las muestras si las colocamos en orden. Pero se da la situación de que en nuestra conocida campana coincide la mediana y la media (porque es simétrica respecto de la media). Es decir, esa suposición es verdad si creemos que se distribuye como una campana, pero no lo es en este caso. Por tanto, si tomamos un salario medio de 24.009,12€ [1] y añadimos intuitivamente un «dado que» los salarios se distribuyen de forma normal, estaremos errando en nuestras suposiciones.

Nuestras suposiciones están bien para nuestro día a día, pero debemos tener cuidado si estamos usando ese mismo tipo de suposiciones para la toma de decisiones importantes.

Podemos llevarnos esto a otros muchos entornos o fenómenos más complejos. Un ejemplo más cercano en el sector de la consultoría, en un proceso de reasignación de personas a proyectos. Si se calcula el tiempo que se tarda en reasignar a una persona a un proyecto  ¿Qué significado tiene este valor? Necesitamos saber qué distribución tiene para poder entenderlo. Y, si no la sabemos, es muy posible que supongamos que es una campana. Es muy posible que a la mayoría de las personas se las reasigne muy rápido, pero que si tienen un perfil muy especial sea difícil encontrarles una nueva posición. Seguramente si no se ha reubicado a la persona en un par de días se tarde bastante en reubicarla. Es decir, seguramente se parezca más a esta gráfica:

Visualización gráfica de una distribución de Poisson

A pesar de esto, en la mayoría de los informes se suele hablar de de medias y rara vez de distribuciones. No se suelen representar los datos y, de nuevo, estaríamos errando suponiendo que la media del informe se refiere a la media de una campana.

Además, se suele dar que a cualquier fenómeno mínimamente complejo le afectan diversos factores, cada uno de ellos con su propia forma, que se juntan en el fenómeno en el que nos fijamos. Pero, ahora que somos conscientes de nuestras asunciones, podemos saber que nuestra interpretación inicial la hemos tenido suponiendo que los datos tienen forma de campana. Y el resultado obtenido con esta suposición lo podemos tomar como referencia para ver si otras curvas se ajustan mejor o peor a nuestros datos.

Llegados a este punto, somos conscientes de que la información que estamos obteniendo es «dado que» suponemos que los datos son una campana o cualquier otra curva. Siempre teniendo una idea inicial, preconcebida, sobre cómo se distribuyen los datos.

Es decir, tenemos un conocimiento «a priori», en nuestro caso unas asunciones hechas y, por otro lado, tenemos unos datos obtenidos, o conocimiento «a posteriori» del fenómeno. Existe una forma de trabajar con estos dos tipos de información de forma complementaria y a esta forma se le denomina Bayesiana, debido al teorema de Bayes.

Es decir, este enfoque nos ayuda a poner explícitamente qué sabemos y qué creemos, y trabajar con ello.

De esta manera, en el caso de la curva de salarios, ya no sólo tendremos en cuenta la media que publicitan los periódicos, tendremos en mente qué curva estamos suponiendo y buscaremos información para validar si esa suposición es cierta.

Si somos más ambiciosos, querríamos tener curvas que se adaptasen lo más apuradamente posible a nuestros datos, tengan la forma que tengan. Es decir, que si no tenemos conocimiento «a priori» no tengamos que suponerlo, ya que cualquier suposición puede estar totalmente errada. De nuevo por suerte, existen familias de curvas que toman formas muy diversas sólo tocando un par de valores, como son las distribuciones Beta o las distribuciones asimétricas de Laplace. En futuras publicaciones trataremos sobre temas  de cómo utilizarlas de forma útil con nuestros datos.

 

Visualización gráfica de la familia de distribuciones beta

 

En resumen

Vivimos en un mundo complejo y necesitamos hacer simplificaciones para poder vivir de forma tranquila. Intuitivamente pensamos que las cosas son «normales», que siguen la campana gaussiana y adaptamos nuestro pensamiento a esto. Pero cuando tenemos que tomar decisiones sobre un fenómeno concreto quizás esta suposición no nos deje ver la realidad tal y como es.

Ser conscientes de nuestras suposiciones nos ayuda a poder evaluar nuestras decisiones de otro modo y a presentar de forma explícita la incertidumbre que tenemos sobre nuestros datos. De este modo podemos empezar a usar nuevas herramientas, como es el marco de trabajo Bayesiano, que permite evaluar los resultados y tomar decisiones más adecuadas a lo que realmente sabemos.

Este cambio de mentalidad, aunque cuesta al principio, abre las puertas a un tratamiento de los datos más sofisticado, en el que hay que prestar mucha más atención a lo que suponemos, pero que nos puede permitir obtener unos resultados más próximos a la realidad, conociendo además su incertidumbre donde antes sólo nos estábamos fiando de la intuición.

En campos como bayesian deep learning se están empezando a explorar algunas de estas puertas, como hemos visto en anteriores publicaciones.

 

Referencias:

[1] Encuesta de Estructura Salarial (EES) 2018, Instituto Nacional de Estadística. 25 de Junio de 2020. https://www.ine.es/prensa/eces_2018_a.pdf

Fuente de la imagen principal: Unsplash

Las opiniones vertidas por el autor son enteramente suyas y no siempre representan la opinión de BBVA Next Technologies.

¿Quieres saber que más cosas hacemos en BBVA Next Technologies?