spinner

In God we trust: all others must bring data (W. Edwards Duming)

Aviso: este artículo no es solo para científicos de datos o expertos en Matemáticas y Estadística. Este post es ¡para todo el mundo! Así que si les interesa, ¡sigan leyendo! Como Data Scientist que soy, en mi día a día vivo rodeado de datos… Pero no solo yo, todo el mundo, ya que por si no se han dado cuenta,vivimos en una era en la que abundan los datos y cada vez son más los lugares de los cuales podemos obtenerlos ¡Están por todas partes!

Laa cantidad de información que se genera a diario se ha vuelto abrumadora pero, sin embargo, en su estado inicial los datos no nos resultan tan valiosos como quisiéramos, por lo que necesitamos métodos que nos permitan transformarlos en información útil que nos provea de nuevo conocimiento. Este conjunto de métodos y procedimientos forman parte de un área de las matemáticas conocida como Estadística, ¡una rama de la ciencia que todos conocemos! Aunque sea de oídas, verdad? Pues vamos a verla un poco más en detalle.

Un poco de introducción

La Estadística comenzó a tener relevancia cuando se volvió más sencilla la tarea de obtener y procesar datos desde diversos sitios, y se observó que al analizarlos podíamos llegar a comprender mejor lo que sucedía a nuestro alrededor. Y, claro, el propósito de la Estadística es meramente ese: el estudio de los datos, analizar su comportamiento para poder tomar decisiones y modelar matemáticamente su naturaleza para inferir sobre sus resultados. Y es justamente esa la palabra clave: inferencia, de lo que me gustaría hablarles a continuación.

¿Y qué significa eso? Bien pues…¿Alguna vez se han preguntado cómo es que Amazon realiza sus recomendaciones, de qué va el conteo rápido en las elecciones presidenciales (donde se sabe quién será el ganador antes de terminar de contar todos los votos), o por qué el asistente virtual que tengo en mi celular es tan “inteligente”?

estadística sistemas recomendación

Fuente: Kaggle.com

En todos estos casos (y en muchos más) la inferencia juega un papel fundamental, por lo que resulta muy importante tener nociones básicas de ella. ¡Y de eso precisamente va este post! De conocer un poco más sobre esta rama del conocimiento para que pueda ayudarlos en su trabajo diario. Espero que les sea de utilidad. ¡Allá vamos!

Bueno vale, pero…¿Qué es la inferencia estadística?

Bien. Imaginemos que una empresa que fabrica focos está interesada en saber cuál es la proporción que resulta defectuosa sobre el total que producen. Por temas de logística, les es imposible conocer ese valor, ya que para calcularlo tendrían que probar foco por foco y llevar el registro de aquellos que fallan.

Es aquí donde nos es de gran utilidad una «subrama» de la Estadística llamada Inferencia Estadística, cuyo objetivo es que, al analizar una muestra de un conjunto de elementos, podamos llegar a conclusiones sobre este conjunto (también llamado población), extrapolando los resultados que obtengamos de la muestra. En nuestro ejemplo, y utilizando métodos de la Inferencia Estadística, nos bastaría con tener una muestra relativamente pequeña de focos para poder estimar de una manera bastante confiable la proporción de focos defectuosos que se producen sobre el total fabricado. Interesante, ¿no es así?

proceso inferencia estadística

Un proceso de inferencia estadística. Fuente: elaboración propia

Métricas como la proporción, el promedio, la varianza, cuartiles o prácticamente cualquier otra medición que pueda describir a un conjunto de elementos, puede ser tratada a través de la Estadística para realizar inferencias sobre ella. La Inferencia Estadística se encarga de calcular estimaciones de estas métricas, que también se suelen llamar parámetros, para que puedan ser generalizadas hacia la población, utilizando métodos probabilísticos que permitan brindarles un cierto grado de confiabilidad.

Dicho de otra manera, la confianza que tengamos sobre si la estimación que se haga acerca de un parámetro es correcta (que ese sea justo el valor real del parámetro, o al menos que esté muy cerca de él), puede medirse a través de una probabilidad.

Por ejemplo, Amazon y cualquier asistente virtual te harán recomendaciones basándose en una muestra, que en este caso son todos los usuarios que han visto o utilizado contenido similar al tuyo, y te recomendará aquellos elementos que tengan mayor probabilidad de que te interesen. En este caso, tú formas parte de la población sobre la cual se infiere, y la muestra es el conjunto de todos los usuarios de los que ya se cuenta con información.

Inferencia Estadística: los métodos

Para seguir con esta breve aproximación a la Inferencia Estadística, les contaré que en la actualidad existen dos posibles maneras de hacer inferencia estadística: a través de métodos frecuentistas, y a través de métodos bayesianos. Decir cuál de los dos es mejor ha sido tema de debate por muchísimos años, y es muy probable que jamás se llegará a una conclusión. En este post no ahondaremos mucho en cada uno de estos métodos, pero sí vale la pena mencionar algunas de sus diferencias, así como sus ventajas y desventajas.

En los métodos frecuentistas se define la probabilidad en términos de la frecuencia relativa (de ahí su nombre) con las que los eventos tienden a ocurrir. Por ejemplo, bajo el enfoque frecuentista, si decimos que la probabilidad de obtener un número par al lanzar un dado es 1/2, lo que en realidad queremos decir es que si lanzamos muchas veces el dado, aproximadamente una de cada dos veces caerá un número par.

Algo contrario sucede en el caso bayesiano, en donde la probabilidad se interpreta como el grado de creencia que se le otorga a la ocurrencia de un evento. Es decir, la probabilidad es una medida subjetiva de ocurrencia que depende completamente de quien esté asignándola. Por ejemplo, cuando alguien dice que la probabilidad de que mañana llueva es 0.9, bajo este enfoque la persona argumentaría que lo dice porque ha llovido durante los últimos días, por lo que consideraría que la probabilidad de que mañana vuelva a llover es muy alta.

Algunas de las ventajas y desventajas de los métodos frecuentistas son que el cálculo de las estimaciones suele ser relativamente sencillo, pero su interpretación puede llegar a ser confusa, además que para obtener una buena estimación, es necesario tener una muestra lo suficientemente grande de datos.

En el caso de los métodos bayesianos, la interpretación de los resultados es más sencilla, sin embargo, muchos de sus modelos requieren de métodos de simulación llamada estocástica, que se traducen en costos computacionales relativamente altos. Además, el hecho de poder incorporar información extra y de que la probabilidad de que un evento ocurra se interprete como un valor subjetivo, permite que sea posible la manipulación de los resultados finales.

Algunas conclusiones

Con este repaso teórico he querido aproximaros un poco (si no lo están ya) al mundo de la estadística, para dar a conocer un poco mejor «todo lo que hay» detrás de los datos, que como hemos visto, están por todas partes. No hay que perder de vista que actualmente se generan miles de millones de datos y es casi seguro que mientras estás leyendo esto se hayan generado más datos alrededor del mundo que los que se generaron durante todo el siglo pasado. Es muy importante que sepamos darles un tratamiento correcto, y la Estadística es la ciencia adecuada para hacerlo, por eso ¡es bueno que conozcamos un poco sobre qué métodos se suelen usar a la hora de interpretar datos!

Por ello se los digo, para que aunque no se dediquen a la Ciencia de Datos, no tengan miedo de entrar en el maravilloso mundo de la Estadística, una ciencia que depende de otras que en principio pueden resultar complicadas pero que, cuando se entienden por completo, nos permiten interpretar y comprender todo lo que sucede a nuestro alrededor de una mejor manera.

Tomemos en cuenta que en nuestra naturaleza humana ya existe ese «feeling estadístico», por así decirlo, ya veréis: ¿Han probado una cucharadita de un guisado para conocer su sabor y temperatura ? ¿O se han hecho un estudio de sangre para saber cómo están de salud? Si han respondido que sí a alguno de estas preguntas u otros parecidas ¡Entonces ya han hecho Estadística! Y más importante aún, intuitivamente han inferido sobre resultados particulares hacia resultados generales, y su camino para ser todos unos ninjas estadísticos ya ha comenzado…

Recuerden, el mundo está lleno de datos y de nosotros depende entenderlo mejor a través de ellos. ¡Anímense a aplicar un poco de estadística en sus vidas!

data inferencia estadistica

Fuente: The New Yorker

Imagen de portada: unsplash.com/William Iven

Las opiniones vertidas por el autor son enteramente suyas y no siempre representan la opinión de BBVA Next Technologies.

¿Quieres saber que más cosas hacemos en BBVA Next Technologies?

Utilizamos cookies propias y de terceros para mejorar nuestros servicios, brindarle una grata experiencia y mostrar a los usuarios publicidad relacionada con sus preferencias mediante el análisis de sus hábitos de navegación. Si continúa navegando por este sitio web, consideramos que acepta su uso. Puede cambiar la configuración u obtener más información accediendo a nuestra política de cookies aquí.