spinner

¿Cómo le saco partido a mis datos de forma inteligente?

Cada día nos inundan todo tipo de datos y no es una práctica nueva la búsqueda, aplicación y perfeccionamiento de métodos, técnicas y herramientas que nos ayuden a explotarlos. Pero, ¿qué significa exactamente explotarlos?

Podemos responder de forma breve: propiciar que los datos nos sean útiles. ¿Así de simple? ¿Qué implica hacerlos útiles? Vemos que la respuesta breve se nos queda corta, aunque encierra el objetivo fundamental: extraer conocimiento de los datos para poder aprovecharlos eficientemente.

¿Extraer conocimiento de los datos?

Para tratar de responder a esta pregunta, no está de más recurrir a alguna de las acepciones de conocimiento:
Facultad del ser humano para comprender por medio de la razón la naturaleza, cualidades y relaciones de las cosas.

Gracias a esta definición empezamos a encauzar la respuesta. Los datos poseen una naturaleza, es decir, unas propiedades concretas, relativas a un negocio o dominio particular. Igualmente, relaciones entre sí y con otros campos de conocimiento. ¿Y si somos capaces de escudriñar esas propiedades y relaciones? ¿Podríamos con ello manejarlos como mejor nos convenga, sujetos a sus propias limitaciones? A priori parece que sí sería posible, pero ¿cómo abordamos esta tarea?

Uso-datos-BBVA-Next-Technologies

Fuente: https://www.ontotext.com/knowledgehub/fundamentals/dikw-pyramid/

Empecemos poco a poco e iteremos

Llegamos al punto de enfrentarnos a los datos y para ello, ¿qué mejor estrategia que formularles preguntas? Es el momento de establecer hipótesis y, acto seguido, explorar y transformar los datos para validarlas o refutarlas. Cuanto más dirigidas y precisas sean dichas hipótesis, más frutos recogeremos de esta tarea de exploración y análisis. Preguntas abiertas o más generales de lo deseado pueden ser difusas, inabarcables y nos pueden conducir a respuestas igual de generales y poco o nada valiosas. Por este motivo es importante fijar un objetivo previamente, es decir, el ¿para qué se pretenden emplear los datos disponibles?

Todos estamos de acuerdo en la teoría pero, demasiado a menudo, nos encontramos en la práctica con que el objetivo no se conoce o no está claro. Se podría decir que es un antipatrón en lo que a datos se refiere. Debemos darnos cuenta de que sin objetivo no sabremos responder a preguntas tan fundamentales como ¿qué es ruido y que es señal? ¿necesitamos recopilar más datos o los que tenemos son suficientes? Puede resultar contraintuitivo, pero la experiencia nos demuestra que, tal como enunció Frank James Marshall, ajedrecista, “Un mal plan es mejor que no tener ningún plan”. Esto pone de manifiesto, a su vez, la importancia de partir de una referencia o baseline.

Teniendo esto claro y recorriendo este camino, conviene comenzar poco a poco, de menos a más e iterar durante el proceso. ¿Por qué? John W. Tukey, matemático que introdujo el concepto de análisis exploratorio de datos (EDA), ya se percató de que un exploratorio no sólo servía para extraer conocimiento de los datos, sino para generar nuevos datos, que aportan nuevo conocimiento y dan pie a nuevos casos de uso. En definitiva, dan pie a la innovación.

Photograph: Wikimedia Commons / RogerRabbit888

Explorar es el pilar

Un buen análisis exploratorio, así como una buena interpretación del mismo, nos va a facilitar la vida tremendamente a la hora de modelar los datos, de escoger y aplicar algoritmos de Machine Learning que mejor se adapten al caso de uso a resolver. Esto, a su vez, posibilita justificar la mejor infraestructura que optimice los procesos y costes de la ingesta de datos, su tratamiento y transformación, el entrenamiento de algoritmos, la explotación del modelo entrenado y la disponibilización de la inferencia. Un mal exploratorio, concebido a partir de un mal elegido objetivo o uno inexistente, convertirá en deuda técnica todo lo que se desarrolle a posteriori, provocando incluso que un proyecto deba comenzar de cero o la pérdida de oportunidad respecto a competidores.

¿Qué lecciones nos podemos llevar?

Además de lo anterior, podemos mencionar que:

  • Extraer conocimiento de los datos implica transformarlos primero en información útil. Para ello, es esencial conocer el propósito de su empleo.
  • Iterar a partir de un baseline es clave para poner foco en lo que aporta valor.
  • El impacto de un modelo que se nutra de datos de calidad es inmediato de observar. Hay que probarlo sin miedo porque nos ayudará a iterar y aprender cuál es el camino adecuado más rápidamente.
  • Una buena interpretación y comunicación de hallazgos y resultados es otra pieza clave de una cultura data-driven y de innovación, que posibilitará optimizar la toma de decisiones.

¿Quieres saber más?

El próximo 18 de febrero únete al evento online Descubriendo el valor de tus datos con modelos de Machine Learning de AWS. Veremos cómo la Ciencia de Datos permite aportar valor a la compañía creando una cultura data driven. Conoceremos varios casos de uso y negocio en AWS. También veremos cómo integrar algunas de las fuentes de datos disponibles en el mercado y cómo al incorporarlas a tus procesos de negocio éstos pueden verse beneficiados.

Las opiniones vertidas por el autor son enteramente suyas y no siempre representan la opinión de BBVA Next Technologies.

¿Quieres saber que más cosas hacemos en BBVA Next Technologies?