El 'gemelo digital social' argentino

# El "gemelo digital social" argentino: ¿retórica complaciente, enmascaramiento o posibilidad real? Dante Avaro 5 de junio de 2026 #repository El 22 de mayo de 2026 el Gobierno argentino presentó, a través del Ministerio de Capital Humano[^1], el esbozo del proyecto titulado "Gemelo Digital Social". La retórica gubernamental se plasmó en el siguiente eslogan: "Convertir la experiencia social en inteligencia pública". La noticia del "Gemelo Digital Social" no fue muy bien recepcionada[^2]; y las críticas u observaciones se concentraron en torno a la privacidad, la protección de datos personales y la opacidad sobre las fuentes de información utilizadas. Sin embargo, y conviene explicitarlo, esas preocupaciones ciudadanas ya son historia pasada (que no es lo mismo que decir que ya no estén disponibles como problema), puesto que hace varias décadas que el Estado argentino tiene y mantiene una trazabilidad ciudadana casi distópica sobre una buena parte de su población (Avaro 2014, 2017). ### **Qué es (y qué no es) un gemelo digital** El concepto fue introducido públicamente por Michael Grieves en 2002 en la Universidad de Michigan, propuesto como modelo conceptual subyacente a la gestión del ciclo de vida del producto (*product lifecycle management*). El término "gemelo digital\" fue acuñado por John Vickers de NASA en un informe de hoja de ruta de 2010. El concepto consiste en tres partes distintas: el producto físico, el producto digital/virtual y las conexiones entre ambos. Esas conexiones son datos que fluyen del objeto físico al modelo virtual, e información que fluye del modelo virtual al entorno físico (*cfr.* Day 2020). La estructura tripartita propuesta por Grieves-Vickers es el núcleo duro del asunto, es decir, no hay gemelo sin el objeto real, sin la réplica virtual y sin el *flujo bidireccional* de datos entre ambos. Esta última condición es la más exigente y la más frecuentemente ignorada en los usos políticos del término. Lo que unifica la mayoría de las definiciones de gemelo digital, más allá de ser una representación virtual de un objeto físico, es la transferencia bidireccional de datos entre el objeto físico y su contraparte digital, incluyendo datos cuantitativos y cualitativos, datos históricos, datos ambientales y, crucialmente, datos en tiempo real (Singh 2021). El análisis de más de 15.000 publicaciones científicas sobre el concepto revela dos grandes grupos: gemelos de alto rendimiento en tiempo real (*High-Performance Real-Time*) y gemelos de soporte a decisiones de largo plazo (*Long-Term Decision Support*) (Abdelrahman *et al.* 2025, Figuras 3 y 4). Un hallazgo contraintuitivo es que componentes como la simulación, la IA/ML, las capacidades en tiempo real y el flujo bidireccional de datos aún no están plenamente maduros en la práctica. La definición de gemelos digitales no ha alcanzado su fase de equilibrio, lo que requiere revisiones continuas a medida que emergen nuevas tecnologías (*cfr.* Abdelrahman *et al.* 2025). Esto es conceptualmente importante, ya que demuestra que "gemelo digital" es actualmente un *término en disputa*, no un concepto estabilizado, lo que permite inferir que hay usos rigurosos y utilizaciones "livianas" del concepto. ### **Una aproximación tipológica** Según información difundida por el Ministerio, el proyecto contempla cuatro etapas: un relevamiento interno de datos existentes dentro del Ministerio; mesas de trabajo con sectores públicos, privados y académicos; la definición de una arquitectura tecnológica basada en inteligencia artificial y simulación; y finalmente, discusiones vinculadas con privacidad, ética algorítmica y marcos regulatorios. El modelo utilizará información "social, educativa, laboral y territorial" proveniente de distintas áreas estatales. Por ahora se encuentra en una etapa inicial de construcción conceptual y técnica. El propio gobierno reconoce antecedentes internacionales, pero en el ministerio aseguran que no existen modelos específicamente diseñados para analizar y proyectar políticas sociales de manera integral, de ahí la pretensión de originalidad (*vid.* [Ámbito](https://www.ambito.com/politica/que-es-gemelo-digital-social-la-nueva-herramienta-inteligencia-artificial-del-ministerio-capital-humano-n6280554) [Infobae](https://www.infobae.com/politica/2026/05/22/el-ministerio-de-capital-humano-presento-gemelo-digital-un-sistema-de-inteligencia-artificial-para-disenar-politicas-sociales-y-predecir-su-impacto/)). Analizando algunos de los antecedentes internacionales, se puede proponer una tipología. Veamos. **Tipo 1: Gemelos digitales urbanos e infraestructurales (el estándar dominante)**. Virtual Singapore (Singapur, desde 2014). La Singapore Land Authority emprendió el proyecto para crear el primer gemelo digital de un país. Utilizando aeronaves con escáneres láser, se construyó un modelo 3D que abarca edificios, vías, espacios verdes e infraestructura subterránea. Permite a planificadores visualizar el paisaje urbano, experimentar con escenarios de infraestructura y evaluar el impacto potencial de cambios propuestos en el entorno urbano. Su foco es eminentemente físico-espacial: tráfico, gestión de inundaciones, consumo energético (*vid*. [OECD OPSI](https://oecd-opsi.org/innovations/virtual-twin-singapore/)). National Digital Twin Programme (Reino Unido, desde 2018). El programa fue articulado por el Centre for Digital Built Britain, una alianza entre la Universidad de Cambridge y el Departamento de Energía e Industria. El programa avanza en fases sucesivas, con una cuarta etapa prevista para 2030--2035 orientada a la adopción amplia y la gobernanza de largo plazo. También está centrado en infraestructura física y resiliencia climática, no en política social (*vid.* [Cam](https://www.cdbb.cam.ac.uk/what-we-did/national-digital-twin-programme)Ndtp). El S-Map de Seúl ha ayudado a reducir los tiempos de viaje promedio y promueve la participación ciudadana en el examen de iniciativas urbanas. Tallinn (Estonia), por su parte, integra datos en tiempo real de servicios públicos, infraestructura y medioambiente en un modelo 3D de la ciudad (*vid*. [Toobler](https://www.toobler.com/blog/examples-of-digital-twin-cities)) La UE tiene el programa de gemelo digital más ambicioso del mundo, pero deliberadamente orientado hacia lo *ambiental*, no lo *social poblacional* ---y eso no es un accidente, es una elección regulatoria. Destination Earth (DestinE) es una iniciativa mayor de la Comisión Europea que busca desarrollar un modelo digital altamente preciso de la Tierra para monitorear y predecir el cambio ambiental y el impacto humano. La Comisión se apoya en la excelencia científica e industrial europea para demostrar cómo las tecnologías digitales pueden contribuir a un futuro más sostenible. El proyecto acaba de entrar en su Fase Tres (junio 2026--junio 2028), que marca un paso crítico en el avance hacia una de las representaciones digitales del planeta más sofisticadas del mundo (*vid*. [European Commission](https://digital-strategy.ec.europa.eu/en/library/destination-earth) ; [Innovation News Network](https://www.innovationnewsnetwork.com/eus-destination-earth-project-enters-phase-three/66126/)). El objeto de DestinE es la Tierra como sistema físico-climático, no la sociedad como sistema humano. Esa distinción es fundamental. > **Diferencia clave con Argentina**: todos estos casos modelan sistemas físicos. El objeto del Gemelo Digital Social argentino es una población y sus trayectorias vitales (educación, empleo, asistencia social), no un territorio. **Tipo 2: Policy Twin y gemelos de políticas públicas sectoriales (aquí la proximidad conceptual con el caso argentino es mucho mayor)**. Fujitsu (Japón, 2024-25) desarrolló Policy Twin, una tecnología que convierte documentos de política pública en formatos de flujo legibles por máquinas, genera nuevos candidatos de política cruzando experiencias exitosas de distintos municipios, y simula la provisión de servicios para cada candidato. Los ensayos de campo en salud preventiva permitieron identificar candidatos de política que duplicaron tanto el ahorro en gastos médicos como las mejoras en indicadores de salud (*vid.* [Fujitsu](https://www.fujitsu.com/global/about/resources/news/press-releases/2024/1126-01.html)). La iniciativa forma parte de un programa más amplio denominado Social Digital Twin, que incorpora economía conductual a los servicios digitales y aplica "economía empírica" para asignar recursos de manera óptima y evaluar la eficacia de políticas recreadas digitalmente (*vid.* [VoIP Review](https://voip.review/2024/11/29/fujitsu-unveils-ai-driven-policy-twin-healthcare-innovation/)). Nota: El enfoque no puede usar políticas de salud pública para ensayar digitalmente políticas tributarias; las políticas deben ser legibles por máquina, y el desafío surge cuando son imprecisas, contradictorias o tácitas (*vid*. [TBR](https://tbri.com/special-reports/fujitsus-policy-twin-revolutionizing-public-policy-with-digital-twins/)). El Public Services Lab en el Brightlands Smart Services Campus trabaja con gemelos digitales para el sector público, en colaboración con la Asociación de Municipios Neerlandeses ([VNG](https://vng.nl/)) y el municipio de Heerlen. Los municipios de Ámsterdam, Utrecht y Rotterdam desarrollan gemelos digitales con código y datos abiertos para simplificar la relación entre ciudadanos y gobierno (*vid*. [Brightlands](https://www.brightlands.com/en/smart-services-campus/nieuws/how-open-source-digital-twin-can-help-social-challenges)). La OCDE documenta que Shanghai utiliza gemelos digitales potenciados por IA generativa e IoT para gestionar su infraestructura urbana, combinando datos en tiempo real con analítica sofisticada. Y en el Interoperable Europe Hub de la Comisión, una empresa sueca llamada *kaleidemoskop* presentó en el GovTech Connect Bootcamp de 2024 una propuesta de "pronósticos precisos para el sector público mediante gemelos digitales de la sociedad\" ---exactamente la denominación que usa Argentina, pero a escala de propuesta piloto privada. [OECD](https://www.oecd.org/en/publications/2025/06/governing-with-artificial-intelligence_398fa287/full-report/ai-in-public-service-design-and-delivery_09704c1a.html)[europa](https://interoperable-europe.ec.europa.eu/node/707973) **Tipo 3: Gemelos digitales de ciudadanos/poblaciones (el más controvertido).** Desde el IBM Center for The Business of Government se ha propuesto que organismos como la Veterans Administration (EE. UU.) creen gemelos digitales de veteranos para predecir condiciones de salud futuras y proveer atención preventiva. También se plantea la posibilidad de gemelos digitales en ciudadanos individuales para simular cambios en la entrega de servicios y personalizar masivamente las prestaciones gubernamentales (*vid.* [Businessofgovernment](https://www.businessofgovernment.org/blog/three-ways-ai-powered-digital-twins-can-improve-government-services)). Por otra parte, un equipo de PwC publicó un framework para construir "social digital twins" como réplicas virtuales de poblaciones donde modelos de lenguaje de gran escala funcionan como motores cognitivos de agentes individuales. Cada agente, caracterizado por atributos demográficos y psicográficos, recibe señales de política y genera vectores de probabilidad conductual multidimensional. El framework es agnóstico en cuanto al dominio: la misma arquitectura es aplicable a política de transporte, intervenciones económicas o regulaciones ambientales. Es decir: el caso argentino llega en un momento en que este enfoque está en la frontera de la investigación, no en fase de implementación consolidada (Koaik, Gupta y Sheikh 2026). > **Nota final.** Lo que distingue al caso argentino de casi todos los antecedentes es la escala y la orientación institucional: no es un proyecto municipal (como Policy Twin en Japón), no es una iniciativa de infraestructura física (como Virtual Singapore o el NDTP del Reino Unido), sino una apuesta de alcance nacional centrada en poblaciones vulnerables y políticas sociales, impulsada desde un ministerio que concentra educación, trabajo, desarrollo social y cultura. Eso lo convierte en algo conceptualmente singular y políticamente controvertido. ### **Matriz comparativa: cómo se define el gemelo en cada caso** Tomando en cuenta la definición y los antecedentes, ahora propongo ordenarlos según cuán estrictamente cumplen la definición técnica canónica: a. Grieves-Vickers/manufactura (definición original). Objeto físico determinado, réplica virtual de alta fidelidad, sincronización continua en tiempo real, flujo bidireccional. Es el caso más limpio. El gemelo de un motor de turbina recibe datos del sensor del motor real cada milisegundo y puede enviar comandos de ajuste de vuelta. b. Virtual Singapore. Modelo 3D de toda la isla-estado construido con datos de aeronaves con escáner láser, integrando infraestructura sobre y bajo tierra. El objeto es el territorio físico; la réplica es geoespacial y la actualización existe, pero no es en tiempo real estricto. Cumple las condiciones, pero se acerca más al polo *Long-Term Decision Support* que al *High-Performance Real-Time*. La bidireccionalidad es débil: el modelo informa decisiones de planificación, pero no actúa de vuelta sobre el territorio de forma automatizada (*vid*. [OECD OPSI](https://oecd-opsi.org/innovations/virtual-twin-singapore/)). c. DestinE. Modelo digital altamente preciso de la Tierra para monitorear y predecir el cambio ambiental. El objeto es el sistema terrestre físico; la réplica es climático-atmosférica y los datos son en tiempo real (satélites, sensores, etc.). Es el caso más próximo al ideal técnico, pero aplicado a un sistema físico natural, no a una sociedad (*vid*. [European Commission](https://digital-strategy.ec.europa.eu/en/library/destination-earth)). d. Fujitsu Policy Twin. Convierte documentos de política pública en formatos de flujo legibles por máquina y genera nuevos candidatos de política mediante cruce y comparación de políticas exitosas de distintos municipios, simulando la prestación de servicios para cada candidato generado. Aquí el "objeto físico\" es el sistema de políticas reales implementadas en municipios; la réplica es el modelo de flujo algorítmico. La bidireccionalidad es metodológica, no en tiempo real; el modelo aprende de lo que funcionó realmente. Es el caso más honesto intelectualmente en su rango de aplicabilidad y sus limitaciones (*vid*. [Fujitsu](https://global.fujitsu/en-global/technology/research/article/researcherinterview/202604-policy-twin)). e. Ciudad Digital Twin (Xiong\'an, City Brain). La plataforma "City Brain" de Hangzhou (China) analiza datos de cámaras y transporte público, ajusta semáforos en tiempo real y gestiona aparcamientos. Aquí sí hay bidireccionalidad fuerte: el modelo ajusta activamente el sistema físico. Pero el objeto sigue siendo urbano-físico. La extensión hacia conductas poblacionales (el Sistema de Crédito Social) es precisamente el punto donde la metáfora del "gemelo" se estira al máximo, porque el "objeto físico\" ---la conducta social--- no está determinado de la misma manera que un semáforo (*vid.* [Swissnex in China](https://swissnex.org/china/news/smart-city-and-sustainable-urban-development-in-china-a-comprehensive-overview/)). f. Gemelo digital social argentino. Según la documentación disponible, el objeto declarado es el "sistema social\" en su conjunto (educación, empleo, asistencia, niñez). La lógica del proyecto es que el Estado deje de actuar únicamente cuando el problema ya explotó y pueda trabajar con mayor capacidad de anticipación. Los especialistas en inteligencia artificial advierten que los modelos sociales son mucho más difíciles de predecir que sistemas físicos o industriales: las conductas humanas tienen niveles altos de incertidumbre y muchas veces cambian por factores imposibles de medir completamente. > **Nota:** Esto abre la pregunta filosófica central: ¿puede haber un "gemelo" de algo que no tiene un correlato físico unívoco? (La sociedad no es una turbina). ### **Una mayor precisión conceptual** Ahora, propongo ordenar los usos en tres niveles de fidelidad conceptual respecto a la definición original: **Nivel 1. Gemelo estricto:** objeto físico determinado + réplica de alta fidelidad + sincronización en tiempo real + bidireccionalidad activa. Casos: manufactura, DestinE, City Brain de Hangzhou para tráfico. **Nivel 2. Gemelo analítico:** objeto complejo (ciudad, sistema de salud, política pública) + modelo computacional + actualización periódica con datos reales + bidireccionalidad metodológica (el modelo informa decisiones que modifican el sistema real). Casos: Virtual Singapore, Policy Twin de Fujitsu, NDTP del Reino Unido. **Nivel 3. Gemelo aspiracional:** objeto declarado (sociedad, capital humano, sistema social) + arquitectura de datos aún en construcción + bidireccionalidad prometida pero no operativa + definición de "real" problemática. Caso: Gemelo digital social argentino en su estado actual. > **Nota:** La honestidad analítica exige decir que casi todos los proyectos de política pública que usan la etiqueta "gemelo digital\" operan en el Nivel 2 o aspiran al Nivel 3. El Nivel 1 sigue siendo territorio de la ingeniería física. ### **Condiciones para que un proyecto de esta naturaleza sea viable** Identifico tres grandes familias de condiciones, con observaciones sobre el caso argentino en cada una. **A. Condiciones técnicas** 1\. Infraestructura de datos integrada e interoperable Un gemelo digital nacional requiere que la información y los datos sean compatibles a lo largo del entorno construido, presentados en formatos consistentes que permitan su intercambio e integración entre diferentes fuentes. Para un gemelo social, la exigencia es mayor: los datos deben cruzar dominios administrativos radicalmente distintos (registros de empleo, historiales educativos, datos de salud, beneficios sociales, estadísticas territoriales), cada uno con sus propios estándares, formatos, jurisdicciones y niveles de calidad (*vid*. [Cam](https://www.cdbb.cam.ac.uk/what-we-did/national-digital-twin-programme/explaining-information-management-framework-imf)). Los participantes en estudios sobre gemelos digitales de infraestructura señalan recurrentemente los mismos desafíos: recolección de datos, gobernanza, estándares de datos e integración. La naturaleza propietaria de todos los sistemas ---\"todos nuestros sistemas son diferentes"--- es el principal obstáculo para la interoperabilidad (Broo 2023). En Argentina, esto se traduce en una pregunta concreta: ¿existe un CUIL/CUIT como identificador único que cruce todos los registros sociales relevantes? En general, sí, y es su mayor fortaleza; sin embargo, la calidad, completitud y actualización de los registros provinciales y municipales es enormemente heterogénea. 2\. Calidad y cobertura de los datos Las barreras a la implementación de gemelos digitales no se deben a inmadurez técnica, sino a inercia institucional, ambigüedad legal y falta de incentivos para el cambio. Soluciones técnicas como el aprendizaje federado, la privacidad diferencial y la gobernanza de datos mediante *blockchain* existen, pero no han ganado tracción en varios campos de aplicación (Xames 2025). Para un gemelo social, la calidad de datos es especialmente crítica porque los sesgos se amplifican: si los registros de beneficiarios sociales sobrerrepresentan a los beneficiarios formales y subregistran a los informales ---que son justamente los más vulnerables---, el modelo predicará sobre una sociedad ficticia. 3\. Capacidad computacional y arquitectura de simulación Los modelos basados en agentes (*agent-based models*) ofrecen riqueza mecanicista al simular tomadores de decisiones individuales, pero requieren una especificación manual extensiva de las reglas de decisión. Lo que significa, en la práctica, un cuello de botella de conocimiento que limita la aplicabilidad a dominios donde el comportamiento está bien comprendido. La alternativa más reciente es usar LLMs como motores cognitivos de los agentes, pero eso introduce nuevas fragilidades (sesgos de entrenamiento, alucinaciones, representatividad cultural) (Koaik, Gupta y Sheikh 2026). **B. Condiciones institucionales** 4\. Marco legal de datos personales y privacidad El aspecto legal de la gobernanza del gemelo digital nacional fue, por ejemplo en el Reino Unido, un punto señalado repetidamente en sesiones de trabajo: existe una brecha de gobernanza que quizás podría cubrirse mejor con legislación o mediante acción mandatoria a nivel gubernamental. Un enfoque de arriba hacia abajo sería el más adecuado para esto (*vid*. [LoupedIn](https://loupedin.blog/2021/01/the-national-digital-twin-legal-implications/)). Argentina, por su lado, tiene la Ley 25.326 de Protección de Datos Personales, pero es de 2000 y está notoriamente desactualizada. La ausencia de un marco de ética algorítmica específico para el sector público es un vacío severo. El propio diseño del Gemelo Digital Social reconoce esto, cuando indica que la cuarta etapa de su hoja de ruta incluye "discusiones vinculadas con privacidad, ética algorítmica y marcos regulatorios\". Esto supone admitir que se lanzó el proyecto antes de resolver el marco que lo debería contener. 5\. Gobernanza institucional y arquitectura de decisión Un análisis de gemelos digitales en múltiples jurisdicciones sugiere que existen tres condiciones importantes para el éxito: fundamentos técnicos sólidos (roles, recursos, procesos y columna vertebral tecnológica), marcos de colaboración (lenguaje común, estándares de diseño y marcos de gestión de datos), y política clara (visión sobre cómo los gemelos digitales pueden agregar valor, políticas de intercambio de datos y legislación asociada) (*vid*. [Sustainable Tech Partner](https://sustainabletechpartner.com/guests/how-to-use-digital-twins-for-infrastructure-innovations/)). Para un gemelo social a escala nacional, se agrega una cuarta condición que los gemelos de infraestructura no enfrentan con la misma agudeza: la legitimidad democrática del uso de los datos. Un municipio que modela el tráfico no necesita el consentimiento explícito de cada conductor; un Estado que modela trayectorias vitales de ciudadanos para decidir quién recibe qué política enfrenta un problema político-filosófico de primer orden. 6\. Capacidades estatales de largo plazo El Programa Nacional de Gemelos Digitales del Reino Unido opera en fases plurianuales y está desarrollando marcos operativos (legales, de seguridad, éticos, de sustentabilidad y comerciales) que son esenciales para un gemelo digital plenamente funcional. El programa británico lleva desde 2018 y no estará completamente operativo antes de 2035. La pretensión de que Argentina construya su equivalente social en plazos políticos normales (cuatro años de gobierno) choca con esta escala temporal (*vid*. [Ndtp](https://ndtp.co.uk/about-ndtp/)). Condiciones económicas 7\. Inversión sostenida y no condicionada a ciclos electorales Los gemelos digitales nacionales son infraestructuras, no proyectos. Requieren inversión inicial alta en arquitectura de datos, inversión continua en mantenimiento y actualización, y, especialmente, continuidad institucional que trascienda cambios de gobierno. Esta es quizás la condición más frágil en el contexto político argentino: el proyecto fue anunciado por un gobierno ideológicamente comprometido con la reducción del Estado, lo que genera una tensión intrínseca con la construcción de capacidad estatal de largo plazo que el propio proyecto exige. 8\. Mercado de proveedores y dependencia tecnológica Una de las críticas más agudas al anuncio argentino señala la diferencia entre datos en manos de corporaciones privadas y datos en manos del Estado: con una empresa tecnológica se puede decidir no comprarle o desinstalar su aplicación. Con el Estado no hay opción de salida. Pero hay un problema simétrico: si la infraestructura tecnológica del gemelo es provista por empresas privadas (nacionales o extranjeras), el Estado queda dependiente de ellas para operar un sistema que tiene acceso a datos sensibles de toda la población. 9\. El problema del retorno y los incentivos Los gemelos digitales de infraestructura tienen retornos medibles (reducción de costos de mantenimiento, optimización de tráfico, ahorro energético). Los gemelos de política social tienen retornos mucho más difíciles de atribuir causalmente: si disminuye la deserción escolar, ¿fue el gemelo, el contexto económico, el maestro, la política de transferencias? La ausencia de un modelo de evaluación riguroso convierte al gemelo en un sistema que puede reclamar cualquier mejora y eludir cualquier fracaso. Diagnóstico sintético: El proyecto argentino en su estado actual satisface parcialmente las condiciones técnicas (existe infraestructura de datos parcial), enfrenta déficits severos en las condiciones institucionales (marco legal desactualizado, ausencia de ética algorítmica, gobernanza de datos fragmentada) y presenta fragilidades estructurales en las condiciones económicas (discontinuidad esperada, dependencia tecnológica, problema de atribución de resultados). Lo más llamativo es la *inversión del orden lógico de construcción*: los proyectos exitosos que revisamos construyeron primero la infraestructura de datos, luego los marcos de gobernanza, y recién después el modelo de simulación. Argentina anunció primero el modelo conceptual y dejó la infraestructura y la gobernanza como etapas futuras. Eso no es necesariamente fatal ---también es una estrategia de *agenda-setting* político---, pero sí implica que el "gemelo" que existe hoy es más una declaración de intención que un artefacto técnico operativo. Lo cual, paradójicamente, lo hace más interesante como objeto de análisis político-filosófico que como objeto de análisis tecnológico. ### **Una conclusión sobre omisiones** En ninguno de los documentos y declaraciones públicas disponibles sobre el Gemelo Digital Social aparece la expresión "datos sintéticos\". El gobierno habla de \"cruzar datos\", \"digitalizar registros", "anticipar situaciones\", \"modelo de simulación\". El silencio sobre datos sintéticos no es inocente: es o ignorancia técnica del concepto, o deliberada elusión de un término que arrastra consecuencias regulatorias y políticas inmediatas. Antes de analizar este asunto, conviene exponer qué se entiende por "dato sintético"; luego trato de indagar sobre el asunto de qué rol juega dentro de la propuesta gubernamental. **¿Qué es un "dato sintético"?** Un dato sintético es un dato generado artificialmente por un modelo computacional, diseñado para preservar las propiedades estadísticas de un conjunto de datos reales sin contener registros reales de individuos u objetos específicos. La definición técnica más rigurosa tiene tres componentes: 1\. Origen. No proviene de observación directa del mundo. Es producido por un generador ---un modelo estadístico, una red generativa, un simulador, etc.--- que ha aprendido la estructura de distribución de datos reales. 2\. Función. Reproducir las propiedades relevantes del conjunto original: distribuciones marginales, correlaciones entre variables, estructuras de dependencia, patrones temporales. El dato sintético no es un dato inventado al azar; es un dato que se comporta estadísticamente como los datos reales. 3\. Propiedad central. Ningún registro sintético corresponde a ningún individuo real. Un perfil sintético, por ejemplo, "varón, 34 años, educación secundaria incompleta, desempleado, provincia de Chaco", no es ninguna persona existente, aunque sea estadísticamente plausible porque refleja correlaciones reales en la población. **"Dato real" y "datos no-reales": tipología.** En algunas ocasiones, el "dato sintético" se confunde con otros datos no reales. Conviene diferenciarlos. Mientras el "dato real" tiene un origen en la observación directa y se relaciona con un individuo u objeto, en los datos no-reales las cosas son diferentes. Hay tres casos de "datos no reales". Primero, dato anonimizado: es un dato real con identidad suprimida y deriva de un individuo real (por tanto, puede reidentificarse). El "dato sintético" tiene su origen en un modelo entrenado con datos reales, pero no corresponde a ningún individuo real/concreto. Por último, se encuentra el "dato fabricado": es un dato inventado sin base empírica y no mantiene relación estadística con lo real. La diferencia entre dato anonimizado y dato sintético es crucial y frecuentemente ignorada en los debates de política pública. Un dato anonimizado es un dato real al que se le quitó el nombre: la persona existe, el registro existe, y bajo ciertas condiciones la identidad puede reconstruirse mediante cruce de variables (*reidentificación*). Un dato sintético, en teoría, no tiene ese problema porque ningún registro corresponde a nadie. **¿Cómo se genera un "dato sintético"?** El proceso canónico tiene cuatro pasos: 1. Datos reales de entrenamiento: El generador aprende sobre un corpus de registros reales (censos, registros administrativos, historiales clínicos, etc.). 2. Modelado de la distribución: El generador aprende la distribución conjunta de las variables ---no solo cada variable por separado, sino cómo se relacionan entre sí. 3. Muestreo: Se generan nuevos registros muestreando de la distribución aprendida. Cada registro es estadísticamente coherente pero ficticio. 4. Validación: Se verifica que los datos sintéticos preservan las propiedades estadísticas relevantes y que no reproducen registros reales identificables. Los métodos de generación más comunes son: modelos estadísticos clásicos (regresiones, cópulas), árboles de decisión generativos, redes generativas adversarias (GANs) y, más recientemente, modelos de lenguaje de gran escala que generan perfiles en lenguaje natural. **El "dato sintético" y su tensión constitutiva** El dato sintético está atravesado por una paradoja que no tiene solución perfecta: cuanto más fiel es a los datos reales, más útil es; y cuanto más útil es, más riesgo tiene de reidentificación. Un dato sintético que captura bien las correlaciones de una población pequeña o con características muy específicas puede, en ciertas condiciones, reconstruir perfiles únicos que corresponden a individuos reales. Esto se llama *membership inference attack*: dado un individuo real, determinar si sus datos estuvieron en el corpus de entrenamiento del generador. La privacidad diferencial (*differential privacy*) es el mecanismo técnico más robusto para controlar ese riesgo: introduce ruido matemáticamente calibrado en el proceso de entrenamiento para garantizar que ningún individuo real sea identificable, con un parámetro ε (épsilon) que controla el trade-off entre utilidad y privacidad. **El "dato sintético": tres roles diferentes** Rol 1. Insumo necesario para construir el modelo: completar el mundo real incompleto El primer problema técnico que enfrenta cualquier gemelo digital social es que los datos administrativos reales nunca cubren la población completa con la densidad y consistencia necesarias para entrenar un modelo de simulación. En el caso argentino esto es estructuralmente severo. Los registros del Ministerio de Capital Humano cubren a los beneficiarios formales de programas sociales, los trabajadores registrados, los alumnos del sistema educativo formal. Pero la población que más necesita ser modelada ---la que vive en la informalidad, la que migra entre provincias, la que no tiene CUIL activo, la que accede a prestaciones de manera fragmentada o intermitente--- es exactamente la población con peor cobertura de datos. Para que el modelo de simulación funcione sobre una población completa, hay dos opciones. La primera es declarar que el modelo solo aplica a la población formalmente registrada, lo cual crearía un gemelo que simula la Argentina visible al Estado, pero no la Argentina real. La segunda es usar datos sintéticos para *imputar* la población no registrada: generar perfiles estadísticamente plausibles de individuos que el Estado no ve directamente, a partir de las correlaciones observadas en los datos que sí tiene. El dato sintético cumple aquí la función de relleno estructural: convierte un registro administrativo incompleto en una población virtual completa sobre la cual el modelo puede operar. Sin este paso, el gemelo simula un país parcial. Con este paso, simula un país completo pero parcialmente ficticio. La distinción es filosóficamente brutal: el Estado argentino estaría tomando decisiones de política pública sobre personas reales usando como insumo representaciones sintéticas de esas personas, generadas por un modelo que nunca las observó directamente. Rol 2. Producto inevitable del gemelo operativo: el subproducto que nadie menciona Una vez que el gemelo está construido y funcionando, genera como subproducto estructural una población sintética de altísima calidad. No es un resultado opcional ni secundario: es inherente a la arquitectura. El gemelo, para simular el impacto de una política, necesita correr escenarios contrafácticos. ¿Qué pasa si aumentamos la AUH un 30 %? ¿Qué pasa si eliminamos el plan X y lo reemplazamos por el plan Y? Para responder esas preguntas, el sistema no puede usar los datos reales de las personas; modificarlos implicaría alterar los registros reales. Necesita una *copia virtual* de la población sobre la cual experimentar. Esa copia virtual es, por definición, una población sintética. Cada vez que el gemelo corre una simulación de política, produce y consume datos sintéticos. Después de miles de simulaciones, el sistema tiene una representación paramétrica de la población argentina que captura correlaciones entre variables educativas, laborales, sanitarias, geográficas y económicas con una fidelidad que ningún conjunto de datos público existente tiene. Ese objeto ---llamémoslo *modelo paramétrico de la población argentina*--- es el dato sintético como producto. Tiene tres características que lo hacen extraordinariamente valioso y extraordinariamente peligroso: Es [denso:]{.underline} captura correlaciones de segundo y tercer orden que los datos administrativos por separado no revelan. Saber que alguien tiene educación secundaria incompleta, vive en el GBA, tiene entre 25 y 35 años y recibe una transferencia condicionada no dice mucho por sí solo. El modelo aprende que esa combinación específica correlaciona con alta probabilidad de tener hijos en edad escolar, de trabajar en la economía no registrada del sector construcción, y de experimentar una caída abrupta de ingresos ante *shocks* de precios de materiales. Eso no está en ningún registro individual: emerge del modelo. Es [transferible]{.underline}: ese modelo paramétrico puede exportarse sin exportar ningún dato personal real. Es legalmente anónimo, pero informativamente equivalente a tener acceso a los datos individuales. Es [apropiable]{.underline}: si la infraestructura del gemelo fue construida por un proveedor privado, la pregunta de quién es dueño del modelo paramétrico ---no de los registros administrativos, sino del modelo entrenado sobre ellos--- no tiene respuesta clara en el derecho argentino vigente. Rol 3. Escudo de privacidad declarado, pero frágil El tercer rol es el que el gobierno eventualmente usará como argumento de defensa ante críticas de privacidad: *"No compartimos datos personales reales, solo trabajamos con datos sintéticos\"*. Este argumento tiene la estructura correcta, pero la solidez declarada es equivocada. La afirmación sería: el gemelo no expone a María García específicamente, sino a un perfil sintético estadísticamente parecido a María García. Ninguna persona real está en el modelo. Por lo tanto, no hay violación de privacidad. El problema es que esta defensa confunde dos cosas distintas. La privacidad individual ---que efectivamente estaría protegida si los datos sintéticos están bien construidos--- y la privacidad de grupo, que no lo está. Un dato sintético que captura correctamente que "las mujeres de entre 30 y 45 años, con educación terciaria incompleta, en municipios del conurbano bonaerense con alto índice de NBI, tienen un 73 % de probabilidad de experimentar interrupción laboral en los siguientes 18 meses\" no identifica a ninguna persona. Pero permite que cualquier actor con acceso al modelo ---una aseguradora, un banco, un empleador, un partido político--- trate a todas las personas reales que pertenecen a ese grupo como si fueran el perfil sintético. El daño no requiere identificación individual: requiere clasificación de grupo. Esta es la distinción que la literatura especializada llama *group privacy* y que la Ley 25.326 argentina no contempla en absoluto. **La articulación entre los tres roles: una cadena** Los tres roles no son independientes. Forman una cadena lógica que el gobierno, si implementa el proyecto con seriedad técnica, no puede evitar. Para construir el gemelo, necesita imputar la población no registrada → usa datos sintéticos como insumo. Al operar el gemelo para simular políticas, necesita una copia virtual de la población → produce datos sintéticos como motor de simulación. Al cabo de años de operación, tiene un modelo paramétrico de altísima fidelidad de la población argentina → ha producido datos sintéticos como subproducto acumulado. En ninguno de estos tres momentos el gobierno puede decir que "no tiene datos de las personas\". Tiene algo más poderoso: un modelo que predice el comportamiento de las personas sin necesitarlas individualmente. **Lo que esto significa para la propuesta argentina específicamente** La propuesta del Gemelo Digital Social, leída a través del concepto de dato sintético, no es ---como la presenta el gobierno--- un sistema de gestión de información administrativa. Es la construcción deliberada o inadvertida de un modelo generativo de la sociedad argentina. La diferencia entre las dos descripciones no es semántica. Un sistema de gestión de información tiene límites claros: contiene los datos que se le cargaron. Un modelo generativo no tiene límites claros: puede producir representaciones de situaciones que nunca ocurrieron, de personas que no existen, de trayectorias futuras que todavía no se vivieron. Cuando ese modelo generativo es operado por el Estado, sobre la totalidad de la población, sin marco regulatorio específico, con infraestructura tecnológica potencialmente provista por actores privados que retienen la propiedad intelectual del modelo entrenado, la discusión no es sobre eficiencia administrativa. Es sobre quién tiene el poder de definir qué es una trayectoria de vida normal, qué desviación justifica una intervención, y qué futuro el Estado considera probable para cada ciudadano antes de que ese ciudadano haya tomado ninguna decisión. Eso es poder constituyente ejercido algorítmicamente. Y los datos sintéticos son el mecanismo técnico que lo hace posible sin que nadie pueda señalar a ninguna persona específica como afectada. ### Bibliografía Abdelrahman M, Macatulad E, Lei B, Quintana M, Miller C, Biljecki F. 2025. "What is a Digital Twin anyway? Deriving the definition for the built environment from over 15,000 scientific publications". *Building and Environment*, 274: 112748. Disponible en: <https://arxiv.org/pdf/2409.19005> Avaro, Dante. 2014. "Citizen Traceability: Surveillance à La Argentina." *Journal of Power Politics & Governance* 2 (3 & 4). https://doi.org/10.15640/jppg.v2n3-4a6. --------. 2017. "Trazabilidad ciudadana y democracia: una aproximación desde la experiencia argentina." *Revista mexicana de ciencias políticas y sociales* 62 (231): 255--75. Koaik, Fatima, Aayush Gupta, and Farahan Raza Sheikh. 2026. "LLM Powered Social Digital Twins: A Framework for Simulating Population Behavioral Response to Policy Interventions." *arXiv \[Cs.AI\]*. arXiv. https://doi.org/10.48550/arXiv.2601.06111. Broo, Didem Gürdür, and Jennifer Schooling. 2023. "Digital Twins in Infrastructure: Definitions, Current Practices, Challenges and Strategies." *International Journal of Construction Management* 23 (7): 1254--63. doi:10.1080/15623599.2021.1966980. Day, Martyn. 2020. "Discussing digital twins". AECMagazine. 5 de febrero. Disponible en: <https://aecmag.com/features/discussing-digital-twins/> Singh, Maulshree, Evert Fuenmayor, Eoin P. Hinchy, Yuansong Qiao, Niall Murray, and Declan Devine. 2021. \"Digital Twin: Origin to Future\" *Applied System Innovation* 4, no. 2: 36. <https://doi.org/10.3390/asi4020036> Xames MD. Data Inaccessibility Is Stifling the Digital Twin Implementation in Health Care. J Med Internet Res. 2025 Jun 3;27:e76524. doi: 10.2196/76524. PMID: 40460307; PMCID: PMC12151448. [^1]: El todopoderoso Ministerio de Capital Humano reúne a los ex ministerios de Educación, Desarrollo Social, Trabajo, Empleo y Seguridad Social y Cultura. El lanzamiento fue comunicado por el Presidente en su cuenta de X así: <https://x.com/JMilei/status/2057814810520137776/video/1> [^2]: Véase por ejemplo [Diario Perfil](https://www.perfil.com/noticias/politica/lanzamiento-del-proyecto-de-los-gemelos-digitales.phtml), [Página 12](https://www.pagina12.com.ar/2026/05/22/los-peligros-que-el-gobierno-oculta-al-anunciar-el-primer-gemelo-digital-social/) y [Chequeado](https://chequeado.com/el-explicador/que-es-un-gemelo-digital-y-que-se-sabe-del-anuncio-del-gobierno-de-milei/). Más equilibradas fueran las notas en [INFOBAE](https://www.infobae.com/politica/2026/05/22/el-ministerio-de-capital-humano-presento-gemelo-digital-un-sistema-de-inteligencia-artificial-para-disenar-politicas-sociales-y-predecir-su-impacto/) y [La Nación](https://www.lanacion.com.ar/tecnologia/javier-milei-anuncio-el-gemelo-digital-social-una-herramienta-impulsada-por-ia-para-mejorar-las-nid22052026/).