top of page

Datos sintéticos. Cuando los millones de datos reales generados no son suficientes.

Foto del escritor: Paloma Muñoz BaenaPaloma Muñoz Baena

La cirugía plástica de la IA o lo que es lo mismo, los datos sintéticos ayudarán a mejorar tu estrategia de IA.

Recuerdo que se decía, hace un par de años, que en 2024 el 60% de los datos utilizados para el desarrollo de soluciones de IA y análisis serían generados sintéticamente, frente al 1% de 2021, según Gartner. Lo cierto es, que a fecha, estamos muy lejos de esto pero andamos en ello.


Pero lo más increíble de todo, es la paradoja creada. En un mundo donde millones de datos reales son generados cada segundo, es necesario replicarlos con datos sintéticos.

Es decir, los datos sintéticos que se generan artificialmente, en lugar de recopilarse a partir de del mundo real, están llegando para llenar este vacío.


Los datos generados artificialmente en lugar de datos históricos reales nos ayudarán a entrenar modelos de IA cuando los datos reales carecen de calidad, volumen o transversalidad. A mí me sigue pareciendo tan llamativa que en una era en la que literalmente estamos produciendo más datos que en toda nuestra historia, nos estamos quedando sin datos específicos necesarios para el entrenamiento de la IA.


¿El uso más destacado? Simular futuros alternativos. Se avecinan cambios y las empresas lo saben. Los datos simulados pueden ayudar a las empresas a realizar simulaciones de escenarios y estar preparadas para cualquier imprevisto.






Pero aviso, los datos sintéticos todavía se producen manualmente con SQL. Para generarlos, se extraen, se hacen anónimos y luego se limpian utilizando lenguajes programáticos estándar. Capgemini Data and AI. La mayoría de los científicos de datos aprovechan los paquetes preconstruidos para generar conjuntos de datos sintéticos.



Generar datos sintéticos que sean estadísticamente significativos y reflejen los datos reales de forma relevante para casos de uso puede ser un reto. Veremos qué futuro tendrá porque el debate está abierto: su uso o creación, si o no.



Los científicos de datos acaban de empezar a utilizar redes generativas adversariales (GANS) para crear diseños propios basados en un conjunto de datos reales. Es un tipo de trabajo neuronal que ha dado un gran salto para hacer realidad la generación de datos sintéticos.

Algunas de las herramientas de inteligencia artificial generativa más útiles para crear datos sintéticos son estas que os nombro a continuación:

  • Faker es una biblioteca de Python y JavaScript, entre otros, que permite generar datos sintéticos de forma aleatoria.

  • Tonic también nos ayuda a generar este tipo de datos seguros y escalables.


Los datos son el combustible de la IA generativa. Las grandes cantidades de datos y la capacidad que tengamos en la nube para almacenarlos y procesarlos a gran escala impulsarán los modelos de base.


Necesitamos de la IA con datos ya conocidos y a partir de ahí, los algoritmos de aprendizaje automático crean datos sintéticos más útiles y representativos.


"En esta vida, la primera obligación es ser totalmente aritificial". Óscar Wilde.

5 visualizaciones1 comentario

Entradas recientes

Ver todo

1 Comment


  • LinkedIn
  • YouTube

©2023 por Ágora Tech. Creada con Wix.com

bottom of page