spinner

Los silos son un problema para explotar el máximo potencial de los datos. En este post hablaremos de cómo las tecnologías de aprendizaje federado permiten explotar los datos sin que sea necesario compartirlos.

Ante la tremenda digitalización de los negocios, las empresas son actualmente grandes generadoras de datos. Necesitan poder almacenarlos y tratarlos para realizar su actividad, pero también para entender mejor el mercado y a sus clientes. El volumen de datos que almacenan cada vez es mayor y, unido a la aparición de tecnologías más potentes de tratamiento de la información, actualmente es posible realizar mejores análisis y empezar a usar técnicas analíticas avanzadas, e incluso de inteligencia artificial, inviables hasta ahora.

Sin embargo, este registro de datos parte de necesidades de diferentes áreas de la empresa y es muy difícil coordinar el registro y explotación de datos de toda una organización. Esta situación se complica aún más en un entorno multiempresa. Por tanto, el registro y uso de datos en muchas ocasiones nace segmentado en las empresas. Cada área registra los datos de la forma que necesita y los explota de acuerdo a sus requerimientos, pudiendo divergir de las necesidades de otras áreas de la organización. Esto lleva a que se formen silos de datos dentro de las organizaciones.

Los silos se forman, o mantienen, por diferentes motivos: técnicos, legales u organizativos. Respecto a los motivos técnicos, muchas veces nos encontramos con que existen diversas tecnologías implementadas en la empresa, bien por un tema de antigüedad o bien por necesidades específicas. Esto desemboca en la creación de silos departamentales, con tecnologías propias. Sin embargo, los mayores causantes de la proliferación de estos silos en una empresa, vienen dados por motivos legales y organizativos (a.k.a. «politics») y son los más difíciles de solventar.
Independientemente de la organización, muchos de los datos con los que se trabaja habitualmente son sensibles de alguna manera y su acceso debe o quiere estar restringido y controlado. Esto se puede deber a evitar la exposición de información de terceros, como clientes y proveedores; o interna de la empresa, como información de empleados o de contabilidad.

Esta situación lleva a que el escenario idílico donde toda la organización pueda extraer todo el valor de todos los datos almacenados sea casi inviable. Al menos en principio. El enfoque tradicional para habilitar que toda la organización pueda explotar todos los datos pasa por establecer medios para que todas las áreas puedan acceder a todos los datos. Sin embargo, esto implica, de forma subyacente, solucionar los motivos de la propia existencia de los silos, que muchas veces son de gran complejidad o exceden a lo que la organización puede realizar, como los límites legales.

No obstante, en muchos casos lo que se busca no es que toda la organización acceda a los datos en sí, si no simplemente que pueda explotarlos. Hasta ahora el acceso a los datos y su explotación iban asociados, pero comienzan a existir tecnologías que permiten explotar los datos sin tener acceso a ellos. Así, es posible definir en un entorno cómo se quieren explotar los datos y que la explotación se haga donde residen los datos, sin que estos abandonen su silo. De esta manera, la analítica o los modelos de inteligencia artificial se definen en el área que tiene conocimiento analítico y quiere explotar los datos, mientras que el cómputo se realiza en el entorno donde realmente residen los datos, recuperándose sólo el resultado o modelo entrenado. Esto es lo que hacen las herramientas de Aprendizaje Federado (Federated Learning), dentro de la familia de tecnologías denominadas PET (Privacy Enhanced Technologies).

De esta forma, es posible que las personas o departamentos con capacidades de explotación de datos puedan hacer uso de datos de otras áreas sin que sea necesario darles un acceso a los datos en crudo, entendiendo siempre que se cumplen todos los requisitos legales para la explotación de estos datos. De este modo no sólo se permite la explotación de esos datos, si no que se puede controlar cómo se explotan, al sólo permitir ciertas ejecuciones, a diferencia del acceso ilimitado que se otorga cuando se da acceso a unos datos en crudo.

Formas de colaboración

Por supuesto, esto que es cierto dentro de una misma organización, sucede igual entre distintas organizaciones. Es posible que un grupo de empresas se unan para poder explotar datos conjuntamente sin que ninguna de ellas muestre a las demás el detalle de sus datos. Hasta ahora era necesaria la existencia de un organización sectorial o tercero de confianza que agrupase todos los datos, pero estas tecnologías hacen que estos actores dejen de ser necesarios.

Claramente, cuanto más diferentes son los silos de datos que tratan de colaborar, más diferentes son sus datos, lo que nos lleva a diferentes escenarios de explotación. Podrían darse entornos donde varias organizaciones tienen actividades similares y todas ellas guardan el mismo tipo de datos de sus actividades. En este caso podrán colaborar mediante lo denominado aprendizaje horizontal, al poder apilar los datos de todas ellas generando un conjunto de datos completo. Se denomina horizontal por la similitud con las filas de una base de datos relacional. Un ejemplo de este caso sería donde se tienen datos de siniestros de vehículos en varias aseguradoras. De este modo la base de datos se construye, virtualmente, entre todas las organizaciones.

El caso contrario es el escenario donde cada silo almacena características diferentes de los registros, teniendo algún datos común para relacionarlos. En este caso, de nuevo por similitud con las bases de datos relacionales, se denomina aprendizaje vertical, ya que cada silo aporta nuevas columnas al conjunto de datos. Continuando con el ejemplo anterior, es posible que se quiera analizar el coste total de un siniestro. En este escenario los talleres y las grúas ofertan diferentes precios a cada aseguradora y no quieren que las demás los conozcan, por lo que cada sector permite usar sus datos, pero no quiere que los demás tengan acceso a ellos. Cada sector se convierte en un silo de datos.

Esto permite modelar diferentes tipos de colaboraciones que pueden llevar a la obtención de diferentes analíticas, o a modelos de inteligencia artificial con diferentes características. Todo ello sin que los datos abandonen sus silos.

Seguridad

Pero este tipo de tecnologías no sólo permiten realizar nuevos tipos de actividades, también permiten añadir fiabilidad en otros aspectos. Los sistemas que contienen datos tienden a estar securizados, pero en muchos casos se realizan volcados de datos a otros sistemas o, incluso, a las máquinas de los empleados.
Una vez se realiza un volcado de datos se pierde el control sobre estos, llevando a brechas de seguridad (como ataque a máquinas de empleados para obtener los datos o extravío de portátiles) o problemas de trazabilidad y gobierno del dato.

Utilizando este tipo de tecnologías es posible permitir la explotación de datos en otros sistemas, evitando que los datos salgan de sus repositorios y, por tanto, manteniendo su control y evitando algunos de los riesgos y desafíos del acceso y compartición de datos.

Nuevas necesidades

No obstante, el Aprendizaje Federado no es una herramienta mágica. Para que estas técnicas sean realmente útiles es necesario generar una serie de recursos que habiliten su uso:

  • Repositorios de datos protegidos
    Los datos deben disponibilizarse mediante este tipo de tecnologías, por lo que es necesario crear nuevos repositorios de datos que permitan acceder a los datos existentes de este nuevo modo.
  • Catálogo de datos
    Dado que los datos no pueden verse en crudo, es necesario realizar un catálogo de datos con sus descripciones, tanto de las características del conjunto de datos como de cada dato, de forma que un analista o científico de datos pueda conocer con qué datos está trabajando. El catálogo de datos es un asunto que afecta al tratamiento de datos de varios modos que ya hemos tratado.
  • Datos sintéticos de ejemplo
    Datos generados de forma artificial, pero que sean similares a los reales, de forma que los automatismos o modelos puedan probarse contra estos datos antes de trabajar contra los datos reales.
  • Validación de explotaciones
    Procedimientos para validar que la explotación de datos está siendo adecuada y no se está extrayendo, mediante analítica demasiado detallada o modelos demasiado complejos, más información de la acordada.

Respecto a los perfiles que desarrollan analítica o ciencia de datos, la mayoría de estas soluciones se apoyan en los principales “frameworks” de datos e inteligencia artificial, como Numpy, Torch, Keras o Tensorflow. Debido a esta característica, el uso de estas tecnologías debería tener un bajo impacto en el trabajo de este tipo de perfiles realiza, así como poder migrar de forma sencilla gran parte del trabajo existente.

Casos de uso

Uno de los casos de uso más comunes es en el ámbito médico, donde diferentes organizaciones tienen datos de pruebas médicas similares de diferentes poblaciones. Estas organizaciones no pueden compartir debido al carácter personal, pero necesitan hacerlo para tener resultados mejores y más fiables. En este sentido, Owkin es una plataforma para este tipo de casos, que tiene varias publicaciones de sus casos de éxito.

Otro de los casos se refiere a la detección de fraude financiero, ya que puede necesitarse compartir información que no debe salir de las organizaciones que la almacenan. En este caso cada organización tiene pocos datos de actividades de fraude etiquetadas como tal y necesita trabajar de forma conjunta con otras organizaciones para una mejor detección, pero esto suele conllevar compartir datos con implicaciones personales que estas organizaciones tienen limitado utilizar. Utilizar estas técnicas puede permitir explotar parte de esta información de forma conjunta.

Aunque estos ejemplos están más centrados en datos relacionados con las personas, estos puede que no se quieran compartir por otros motivos, como mantener ventajas competitivas o evitar que se conozcan datos sobre la operativa o el estado interno de la organización.

Como ejemplo más extremo está el aprendizaje federado del teclado predictivo de Android. El teclado predictivo aprende en el terminal de cada usuario de Android, para que no se conozca qué vocabulario utiliza cada persona, y envía sus aprendizajes a un entorno central desde donde se redistribuye a todos los terminales mediante las nuevas actualizaciones.

Productos y proyectos

Por un lado, estas tecnologías, estando aún en estados incipientes, comienzan a estar disponibles mediante proyectos libres, como OpenFL (Intel) o Pysyft (Openmined). Estos proyectos permiten adentrarse en la tecnología para realizar algunas pruebas de concepto, aunque tienen una curva de entrada pronunciada.

Por otro lado, también comienzan a existir productos comerciales, como Sherpa.ai o Acuratio, que no sólo disponibilizan la tecnología, si no que tratan de hacerla más accesible e integrable con otros entornos.

Resumen

En resumen, las herramientas de aprendizaje federado han llegado para separar el acceso a datos de la explotación de datos, permitiendo tender puentes entre silos que hasta ahora, por diferentes motivos, estaban abocados a permanecer aislados, dotando a las organizaciones de herramientas de cohesión en la explotación de datos.

Aún en un estado incipiente, la tecnología está dejando el ámbito más académico para estar disponible para empresas y otras organizaciones, comenzando por romper silos internos, pero pudiendo habilitar en el futuro colaboraciones inviables hasta ahora.

Si quieres saber más al respecto por favor, ponte en contacto con nosotros en hablemos.es@bbvanexttechnologies.com.

Fuente de la imagen: Unsplash

Las opiniones vertidas por el autor son enteramente suyas y no siempre representan la opinión de BBVA Next Technologies.

¿Quieres saber que más cosas hacemos en BBVA Next Technologies?