26/05/2026

El riesgo principal de la IA generativa: por qué las alucinaciones dominan a cualquier otra falla

Lo esencial

La mayor parte de los rankings enumeran entre ocho y doce riesgos de la IA generativa. La consulta pide uno y, en términos estructurales, uno domina realmente: la alucinación, denominada «confabulación» en la terminología estadounidense oficial.
El perfil NIST AI 600-1 clasifica la confabulación como una de las doce categorías de riesgo específicas de la IA generativa y la trata como una propiedad estructural de la tecnología, no como un defecto transitorio.
La investigación reciente muestra que ampliar el volumen de datos de entrenamiento no elimina las alucinaciones: GPT-4o y Claude 3.7 siguen produciendo un 15-20 por ciento de citas inventadas en tareas factuales, porcentaje que sube al 35-55 por ciento en temas de nicho o recientes.
El Reglamento europeo de IA aborda este riesgo directamente mediante los artículos 50 y 51 a 55 (transparencia, marcado de contenidos sintéticos, evaluación de modelos GPAI, resumen de datos de entrenamiento).
Todos los demás riesgos habitualmente citados (sesgo, infracción de propiedad intelectual, fuga de datos, deepfakes) amplifican la misma raíz: salidas cuyo estatus epistémico el usuario no puede verificar.

Por qué preguntar por un solo riesgo está a la vez mal planteada y bien planteada

Quien teclea «what is one major risk associated with generative AI models» en Google obtiene una respuesta en forma de lista: ocho, diez, doce riesgos. SentinelOne enumera diez riesgos de seguridad. AIMultiple cuenta diez. IBM lista diez. ICAEW cuatro. La consulta pedía uno. Los resultados ofrecen muchos.

Este reflejo de listicle no es casual. Procede de proveedores de ciberseguridad que quieren parecer exhaustivos y de firmas de auditoría cuyo modelo de negocio vende una cobertura amplia. En el plano analítico, es un error de categoría. Una lista de diez supone que los elementos son comparables, que pueden mitigarse de forma independiente y que su jerarquía es cuestión de gusto. Para la IA generativa, ninguno de los tres supuestos se sostiene.

MIT Sloan propone una lectura más útil: distingue los riesgos incorporados, inherentes a la tecnología, de los riesgos activados, que dependen del modo en que una organización utiliza el sistema (MIT Sloan). Los riesgos incorporados sobreviven a cualquier decisión de despliegue. Los riesgos activados pueden neutralizarse con controles y procesos. El criterio de dominancia para «un riesgo principal» pasa a ser: ¿qué riesgo está plenamente incorporado, no puede diseñarse fuera del modelo y todo despliegue de cara al usuario debe heredar?

Un solo candidato supera la prueba. El sesgo puede mitigarse mediante la curación de datos. La exposición a la propiedad intelectual se reduce con la trazabilidad de los datos de entrenamiento. La inyección de prompts puede defenderse en la capa de aplicación. Ninguna de estas fallas es estructural en el modelo en sí. La alucinación sí lo es.

La respuesta: la alucinación (confabulación) es el riesgo dominante

En el vocabulario regulatorio estadounidense, el modo de fallo se llama confabulación. El perfil NIST AI 600-1, publicado en julio de 2024 como complemento intersectorial al AI Risk Management Framework 1.0, lista doce riesgos propios de la IA generativa o agravados por ella: información o capacidades CBRN, confabulación, contenidos peligrosos o violentos o de odio, privacidad de los datos, impactos ambientales, sesgos dañinos y homogeneización, configuración humano-IA, integridad de la información, seguridad de la información, propiedad intelectual, contenidos obscenos o degradantes o abusivos, e integración de la cadena de valor (NIST AI 600-1). La confabulación encabeza la lista por un motivo: todas las demás categorías del perfil interactúan con ella.

Un artículo de arXiv de 2025 firmado por Charles Rathkopf hace explícito el argumento estructural: cualquier modelo generativo que pretenda producir datos complejos y estructurados acabará alucinando, y los aumentos masivos en los datos de entrenamiento no eliminarán estos errores (Rathkopf, 2025). Los errores no se heredan del corpus de entrenamiento. Los produce el modelo mismo. El propio artículo documenta la escala operativa del fenómeno. GPT-4o y Claude 3.7 muestran aún tasas de alucinación del 15-20 por ciento en tareas de citación factual, y del 35-55 por ciento en temas de nicho o recientes. Un análisis independiente sobre 4.841 artículos aceptados en NeurIPS 2025 identificó al menos 100 citas alucinadas confirmadas en 53 artículos, alrededor del 1 por ciento del material aceptado en una conferencia con revisión por pares exigente.

Un segundo trabajo de 2025, Beyond Accuracy: Rethinking Hallucination and Regulatory Response in Generative AI, sostiene que los marcos vigentes han heredado una visión demasiado estrecha de la alucinación y propone una lectura por capas: inestabilidad epistémica dentro del modelo, desorientación del usuario en la interfaz y efectos a escala social cuando las salidas alucinadas se propagan a la búsqueda, el periodismo, la literatura científica y el apoyo a la decisión (arXiv 2509.13345). Cada capa multiplica el impacto de la inferior.

¿Por qué domina este riesgo? Todo daño aguas abajo asociado a la IA generativa supone que las salidas pueden tomarse al pie de la letra. Una demanda por difamación empieza cuando un LLM inventa antecedentes penales a una persona real. Un incumplimiento de obligación informativa comienza cuando un analista incorpora cifras alucinadas a un informe anual. Una decisión clínica equivocada surge cuando un asistente de triaje fabrica una interacción medicamentosa. Ninguno de estos eventos ocurre si el usuario puede verificar la salida, y es justamente esa capacidad de verificación la que la confabulación suprime.

Confabulación, mentira y sesgo: no confundir

La confabulación es estructural, no adversaria. El modelo no engaña a nadie. Genera tokens con alta plausibilidad local porque eso es lo que premia el objetivo de predicción del siguiente token. Difiere de la inyección de prompts, en la que un tercero desvía intencionalmente el comportamiento del modelo, y difiere del sesgo, que es una propiedad estadística de los datos de entrenamiento y de las fronteras de decisión. La confabulación puede coexistir con ambos. Un modelo confabulador puede estar sesgado y puede ser explotado, y tanto el sesgo como la explotación resultan más efectivos precisamente porque el usuario no distingue de manera fiable la salida autorizada de la inventada.

Cómo tratan este riesgo los reguladores

La convergencia es llamativa. Tres de los regímenes de gobernanza más estructurantes (el Reglamento europeo de IA, el NIST AI 600-1 y la norma ISO/IEC 42001) tratan la alucinación, la transparencia y la verificabilidad de las salidas generativas como restricciones centrales de diseño, aunque usen vocabularios distintos.

Reglamento UE de IA: obligaciones de transparencia del artículo 50

El artículo 50 del Reglamento UE de IA fija obligaciones de transparencia para los sistemas destinados a interactuar con personas físicas y para los sistemas que generan contenidos sintéticos. Los proveedores deben marcar la salida como generada artificialmente en un formato legible por máquina. Los desplegantes de sistemas de IA que generan o manipulan contenidos imagen, audio o vídeo constitutivos de deepfakes deben declarar que el contenido ha sido generado o manipulado artificialmente. Estas obligaciones existen porque el legislador concluyó que las salidas generativas no se identifican de manera fiable por sí mismas, lo que es la definición operativa del riesgo de confabulación trasladada al derecho (Parlamento Europeo, AI Act).

La Comisión ha sido inequívoca. En virtud del Reglamento de Servicios Digitales, ha enviado solicitudes formales de información a seis plataformas en línea de muy gran tamaño y a dos motores de búsqueda en línea de muy gran tamaño sobre las medidas de mitigación de los riesgos de la IA generativa. La lista de riesgos nombrados por la Comisión abre con «las alucinaciones, en las que la IA proporciona información falsa», y prosigue con la difusión viral de deepfakes, la manipulación automatizada de servicios y procesos electorales, la difusión de contenidos ilícitos, las vulneraciones de derechos fundamentales y la exposición a la propiedad intelectual (Comisión Europea, RFI GenAI 2024).

Reglamento UE de IA: obligaciones GPAI (artículos 51 a 55)

Los modelos de IA de uso general disponen de un capítulo propio. El artículo 51 distingue el GPAI ordinario del GPAI con riesgo sistémico. El artículo 53 obliga a todos los proveedores de modelos GPAI a publicar documentación técnica, una política de uso aceptable y un resumen suficientemente detallado del contenido utilizado para el entrenamiento (artículo 53, apartado 1, letra d). El artículo 55 añade, para los modelos con riesgo sistémico, evaluación de modelos, pruebas adversariales, notificación de incidentes graves y requisitos de ciberseguridad. Tanto el resumen de los datos de entrenamiento como la obligación de prueba adversarial reconocen que una generación opaca, en la que las salidas no pueden rastrearse hasta una procedencia identificable, es un peligro regulatorio.

La mayor parte del Reglamento se aplica desde el 2 de agosto de 2026. Las prohibiciones y las disposiciones sobre alfabetización en IA se aplican desde el 2 de febrero de 2025.

NIST AI 600-1: la confabulación entre doce categorías

Como se ha señalado, NIST AI 600-1 sitúa la confabulación junto a CBRN, privacidad de los datos, sesgos dañinos, integridad de la información, seguridad de la información, propiedad intelectual e integración de la cadena de valor. El perfil incluye más de doscientas acciones recomendadas asignadas a las cuatro funciones del AI RMF de base (Govern, Map, Measure, Manage). Para la confabulación, las recomendaciones se concentran en anclar las salidas a fuentes verificables, comunicar la incertidumbre al usuario y estructurar la supervisión humana en la capa de interfaz.

ISO/IEC 42001: la respuesta operativa

ISO/IEC 42001:2023, la primera norma internacional para sistemas de gestión de IA (AIMS), ofrece a las organizaciones un marco certificable. La cláusula 6.1.3 (tratamiento del riesgo) y los controles del anexo A sobre evaluación de impacto del sistema de IA, calidad de los datos y supervisión humana operacionalizan la respuesta a la confabulación como un control documentado. La norma exige evaluaciones de impacto para los sistemas de alto impacto e impone la identificación, evaluación y mitigación documentadas del sesgo, la rendición de cuentas, la protección de datos, la supervisión humana, la explicabilidad y la equidad (ISO/IEC 42001:2023). Un AIMS certificado proporciona una respuesta defendible a la pregunta «¿cómo gestionan la confabulación en producción?» porque la norma convierte esa pregunta en pruebas auditables, no en garantías de ocasión.

Por qué cualquier otro riesgo habitualmente citado depende de este

Los listicles no se equivocan en los elementos que enumeran. Se equivocan en la estructura. Sesgo, propiedad intelectual, fuga de datos y deepfakes son riesgos reales y de peso. Son también, en distintos grados, derivados del déficit de verificabilidad que la confabulación crea.

Sesgo

La publicación NIST SP 1270 distingue tres capas de sesgo en la IA: sesgo computacional procedente de los datos y de las decisiones de modelado, sesgo sistémico que viene de patrones institucionales más amplios y sesgo humano en la interpretación y el uso (NIST SP 1270). El sesgo se convierte en problema de despliegue cuando el usuario no puede verificar si una salida refleja la evidencia subyacente o un artefacto estadístico. Si no se puede saber si la respuesta es inventada, tampoco se puede saber si está sesgada. Ambos modos de fallo comparten el mismo punto ciego diagnóstico.

Propiedad intelectual y derechos de autor

Los modelos generativos entrenados con material protegido pueden producir salidas que reproducen o parafrasean estrechamente la fuente. El artículo 53, apartado 1, letra d, del Reglamento UE de IA obliga a los proveedores a publicar un resumen suficientemente detallado de los datos de entrenamiento: un control de transparencia que apunta a la misma raíz, esto es, salidas cuya filiación con el material origen no se puede reconstruir. El código de prácticas sobre marcado y etiquetado de contenidos generados por IA se inscribe en la misma familia de controles de restitución de procedencia.

Fuga de datos e inyección de prompts

NIST AI 100-2 E2025, la actualización de 2025 de la taxonomía oficial estadounidense de ataques de aprendizaje adversarial, clasifica los ataques sobre IA predictiva y sobre IA generativa. El OWASP AI Exchange trata la inyección de prompts como una categoría diferenciada pero documenta la palanca que los atacantes obtienen cuando pueden moldear salidas generativas que el usuario tomará por autorizadas. La inyección de prompts es peligrosa precisamente porque el usuario no dispone de una manera fiable de distinguir una respuesta dirigida por el atacante de una legítima, otra vez el problema de la confabulación expresado en clave de seguridad.

Deepfakes

Los contenidos imagen, audio y vídeo sintéticos producidos por modelos generativos son el rostro políticamente visible del riesgo de confabulación. El artículo 50, apartado 4, del Reglamento UE de IA impone la divulgación cuando el contenido desplegado constituye un deepfake. La Comisión Europea ha publicado un código de prácticas sobre marcado y etiquetado de contenidos generados por IA. No se trata de intervenciones normativas distintas dirigidas a riesgos distintos. Es la misma intervención aplicada a modalidades de salida diferentes.

Lo que significa para los desplegantes (el manual de juego)

Una organización desplegante no puede eliminar la alucinación en la capa del modelo. Sí puede diseñar su despliegue de modo que las salidas alucinadas sean interceptadas antes de llegar a un usuario o a una autoridad. Cuatro capas, cada una anclada a una obligación o control con nombre:

Evaluación de impacto del sistema de IA (ISO/IEC 42001 anexo A.6, artículo 27 del Reglamento UE de IA para el impacto sobre derechos fundamentales). Antes de poner en producción un sistema generativo en una superficie de cara al usuario, documente qué tipos de salidas producirá el sistema, qué categorías de usuarios las verán y dónde una salida alucinada provocaría el mayor daño concreto. Este artefacto se convierte en la puerta de entrada de todos los controles aguas abajo.
Divulgación y procedencia del contenido (artículo 50 del Reglamento UE de IA). Marque las salidas generadas por máquina como tales. Aplique metadatos de procedencia (C2PA o equivalente) sobre los medios sintéticos. Si el modelo se despliega en una interfaz conversacional, la divulgación debe estar en pantalla, no enterrada en los términos de uso.
Verificación humana en salidas de alto impacto (artículo 14 del Reglamento UE de IA para sistemas de alto riesgo, artículo 26 para obligaciones del desplegante; función Manage de NIST AI 600-1). Para salidas que influyen en decisiones reguladas (crédito, seguros, selección de personal, triaje clínico, asesoramiento legal), exija un revisor humano con autoridad y competencia para anular la salida. La eficacia del revisor depende de herramientas que hagan visible la incertidumbre, no solo el texto.
Registro de incidentes y vigilancia poscomercialización (artículo 72 del Reglamento UE de IA, cláusula 9 de ISO/IEC 42001). Registre los eventos de confabulación como un proveedor de software registra los incidentes de producción. Realice un seguimiento de frecuencia, impacto y medidas correctoras. El registro retroalimenta la ingeniería de prompts, el anclaje por recuperación y las decisiones de reentrenamiento.

Una plataforma como AI Sigil operacionaliza estas capas como una superficie única de sistema de gestión: la evaluación de impacto, el registro de divulgación, el flujo de supervisión humana y el registro de incidentes se convierten en objetos de primer orden y no en artefactos dispersos.

Horizonte 2026: hacia dónde se dirige todo esto

Cuatro señales convergen en la segunda mitad de 2026.

Primero, la mayor parte del Reglamento UE de IA se aplica desde el 2 de agosto de 2026. Las obligaciones GPAI se activan. Las autoridades de vigilancia del mercado de los Estados miembros empiezan a sancionar formalmente a proveedores y desplegantes que no marquen contenidos sintéticos, no documenten los datos de entrenamiento o no operacionalicen sus obligaciones de gestión del riesgo.

Segundo, la actuación de la Comisión al amparo del DSA sobre los riesgos de la IA generativa, ya iniciada con las solicitudes formales de 2024, pasa de la recogida de información a obligaciones sustantivas. Los responsables de cumplimiento en las plataformas deberán demostrar, con mediciones, que las salidas alucinadas no influyen en conversaciones electorales ni en la difusión de contenidos ilícitos.

Tercero, la literatura académica está reposicionando la alucinación: de curiosidad técnica a problema de seguridad epistémica. La lectura por capas propuesta por Beyond Accuracy (inestabilidad epistémica, desorientación del usuario, efectos a escala social) se está convirtiendo en referencia para reguladores y auditores.

Cuarto, las certificaciones y normas están alcanzando el ritmo. Las certificaciones ISO/IEC 42001 se están escalando. Las organizaciones que construyeron sus controles de IA generativa en torno al riesgo de alucinación verán el trabajo de certificación sostenerse bajo cualquier régimen que llegue después. Aquellas que los construyeron en torno a un listicle genérico tendrán que rehacerlos.

Preguntas frecuentes

¿Qué significa «alucinación» en IA generativa? La alucinación es el modo de fallo por el que un modelo generativo produce una salida que suena plausible pero es fácticamente errónea o inventada. NIST utiliza el término técnico de confabulación. La salida no es producto de un bug de software ni de un error de consulta a base de datos. La genera el modelo del mismo modo que cualquier otro token: seleccionando tokens con alta probabilidad local dado el contexto. El modelo no señaliza qué partes de su salida son fiables, lo que vuelve el fallo peligroso.

¿La alucinación es lo mismo que el sesgo? No. El sesgo es una propiedad estadística de cómo se distribuyen las decisiones de un modelo entre grupos, contextos o modalidades. La alucinación es un fallo a nivel de contenido en el que el modelo produce información que no se corresponde con ninguna fuente subyacente. Ambos pueden coexistir. Un modelo confabulador puede estar sesgado. Pero mitigar el sesgo (curación de datos, pruebas de equidad, calibración) no mitiga la confabulación, y viceversa.

¿Pueden eliminarse las alucinaciones entrenando con más datos? No. El artículo de arXiv de 2025 Hallucination, reliability, and the role of generative AI in science es explícito: incluso aumentos masivos en los datos de entrenamiento no eliminarán la alucinación, porque los errores los produce el propio proceso de generación, no se heredan simplemente del corpus. Los controles de ingeniería (generación aumentada por recuperación, anclaje de salidas, estimación de incertidumbre, revisión humana) pueden reducir frecuencia e impacto, pero ninguna técnica actual elimina el modo de fallo en la capa del modelo.

¿Qué dice exactamente el Reglamento UE de IA sobre las alucinaciones? El Reglamento no usa la palabra alucinación. Aborda el problema subyacente de forma indirecta vía artículo 50 (transparencia y marcado de contenidos sintéticos), artículos 51 a 55 (obligaciones GPAI, incluido el resumen de datos de entrenamiento, la documentación técnica y la evaluación de modelos sistémicos) y artículo 26 (responsabilidades del desplegante). La Comisión Europea, en su actuación DSA, ha situado las alucinaciones como primer punto de los riesgos de la IA generativa que deben mitigarse.

¿Cómo puede un desplegante reducir el riesgo de alucinación en producción? Cuatro capas aplicadas en conjunto: una evaluación de impacto documentada que nombre los escenarios de daño; un marcado de divulgación y procedencia de los contenidos; una verificación humana sobre salidas que influyen en decisiones reguladas; y un registro de incidentes vinculado a la vigilancia poscomercialización. Ninguna de estas medidas elimina la alucinación, pero juntas convierten una exposición abierta en un riesgo gestionado con controles documentados y pista de auditoría.

Conclusión

La SERP responde a «what is one major risk associated with generative AI models» con una lista de diez. La respuesta honesta es uno solo. La alucinación, llamada confabulación en el léxico estadounidense, es el riesgo dominante porque está incorporada en la tecnología y no activada por el desplegante, porque reguladores y normas convergen sobre ella, porque la investigación de 2025 demuestra que escalar no la resuelve, y porque todos los demás riesgos habitualmente citados agravan el mismo déficit de verificabilidad. La tarea de cualquier organización que despliegue IA generativa consiste en convertir ese déficit en una superficie de control gestionada: evaluación de impacto, divulgación, supervisión humana, registro de incidentes. Hecho con rigor, el trabajo aguanta la fecha de aplicación del 2 de agosto de 2026. Hecho como listicle, no.

Para un examen más detallado del modo en que una plataforma de gobernanza de IA estructura estos controles, véase la plataforma AI Sigil y los recursos Industry Insights.

Elena Vargas