26/05/2026

O risco principal da IA generativa: porque as alucinações dominam todas as outras falhas

O essencial

Quase todos os rankings enumeram entre oito e doze riscos da IA generativa. A pergunta exige um único, e um risco realmente domina no plano estrutural: a alucinação, que a terminologia oficial norte-americana chama «confabulação».
O perfil NIST AI 600-1 classifica a confabulação entre as doze categorias de risco específicas da IA generativa e trata-a como uma propriedade estrutural da tecnologia, não como um defeito transitório.
A investigação mais recente mostra que aumentar o volume dos dados de treino não elimina as alucinações: o GPT-4o e o Claude 3.7 continuam a produzir 15 a 20 por cento de citações inventadas em tarefas factuais, percentagem que sobe para 35 a 55 por cento em temas de nicho ou recentes.
O Regulamento europeu da IA disciplina este risco directamente através dos artigos 50.º e 51.º a 55.º (transparência, marcação de conteúdo sintético, avaliação dos modelos GPAI, resumo dos dados de treino).
Todos os restantes riscos habitualmente citados (enviesamento, violação de propriedade intelectual, fuga de dados, deepfakes) ampliam a mesma raiz: saídas cujo estatuto epistémico o utilizador não consegue verificar.

Porque a pergunta sobre «um risco principal» é mal e bem colocada ao mesmo tempo

Quem escreve «what is one major risk associated with generative AI models» no Google recebe uma resposta em lista: oito, dez, doze riscos. A SentinelOne enumera dez riscos de segurança. A AIMultiple lista dez. A IBM lista dez. A ICAEW quatro. A pergunta exigia um. Os resultados oferecem muitos.

Este reflexo de listicle não é inocente. Vem de fornecedores de cibersegurança que querem parecer abrangentes e de firmas de auditoria cujo modelo de negócio assenta na venda de cobertura ampla. Em termos analíticos, é um erro de categoria. Uma lista de dez supõe que os elementos são comparáveis, que cada um pode ser mitigado em separado e que a hierarquia entre eles é questão de gosto. Para a IA generativa, nenhum dos três pressupostos se sustenta.

A MIT Sloan propõe uma leitura mais útil, distinguindo riscos incorporados, inerentes à tecnologia, de riscos accionados, dependentes da forma como uma organização utiliza o sistema (MIT Sloan). Os riscos incorporados sobrevivem a qualquer escolha de implementação. Os riscos accionados podem ser desligados com controlos e processos. O critério de dominância para «um risco principal» torna-se então: qual o risco que está inteiramente incorporado, não pode ser arquitectado fora do modelo, e tem de ser herdado por qualquer implementação virada para utilizadores?

Apenas um candidato passa o teste. O enviesamento pode ser mitigado pela curadoria dos dados. A exposição à propriedade intelectual reduz-se com a rastreabilidade dos dados de treino. A injeção de prompts pode ser defendida na camada aplicacional. Nenhuma destas falhas é estrutural no próprio modelo. A alucinação é.

A resposta: a alucinação (confabulação) é o risco dominante

No vocabulário regulatório norte-americano, o modo de falha chama-se confabulação. O perfil NIST AI 600-1, publicado em Julho de 2024 como complemento intersectorial ao AI Risk Management Framework 1.0, lista doze riscos próprios da IA generativa ou agravados por ela: informações ou capacidades CBRN, confabulação, conteúdos perigosos ou violentos ou de ódio, privacidade dos dados, impactos ambientais, enviesamentos prejudiciais e homogeneização, configuração humano-IA, integridade da informação, segurança da informação, propriedade intelectual, conteúdos obscenos ou degradantes ou abusivos, e integração da cadeia de valor (NIST AI 600-1). A confabulação abre a lista por uma razão concreta: todas as outras categorias do perfil interagem com ela.

Um artigo arXiv de 2025 assinado por Charles Rathkopf torna explícito o argumento estrutural: qualquer modelo generativo que pretenda produzir dados complexos e estruturados acabará por alucinar, e nem aumentos massivos no volume de dados de treino farão desaparecer estes erros (Rathkopf, 2025). Os erros não são herdados do corpus de treino. São produzidos pelo próprio modelo. O mesmo trabalho documenta a escala operacional do fenómeno. O GPT-4o e o Claude 3.7 apresentam ainda taxas de alucinação de 15 a 20 por cento em tarefas de citação factual, e de 35 a 55 por cento em temas de nicho ou recentes. Uma análise separada sobre 4.841 artigos aceites na NeurIPS 2025 identificou pelo menos 100 citações alucinadas confirmadas em 53 artigos, cerca de 1 por cento do material aceite numa conferência com revisão por pares rigorosa.

Um segundo trabalho de 2025, Beyond Accuracy: Rethinking Hallucination and Regulatory Response in Generative AI, sustenta que os quadros normativos em vigor herdaram uma visão demasiado estreita da alucinação e propõe uma leitura em camadas: instabilidade epistémica dentro do modelo, desorientação do utilizador na interface e efeitos à escala social quando as saídas alucinadas se propagam para a pesquisa, o jornalismo, a literatura científica e o apoio à decisão (arXiv 2509.13345). Cada camada multiplica o impacto da camada abaixo.

Porque domina este risco? Todo o dano a jusante associado à IA generativa pressupõe que as saídas podem ser aceites como verdadeiras. Uma acção por difamação começa quando um LLM inventa antecedentes criminais a uma pessoa real. Um incumprimento de dever de informação começa quando um analista cola números alucinados num relatório anual. Um erro clínico nasce quando um assistente de triagem fabrica uma interacção medicamentosa. Nenhum destes eventos ocorre se o utilizador conseguir verificar a saída, e é exactamente essa capacidade de verificação que a confabulação suprime.

Confabulação, mentira e enviesamento: não confundir

A confabulação é estrutural, não adversarial. O modelo não está a enganar ninguém. Gera tokens com alta plausibilidade local porque é isso que o objectivo de previsão do token seguinte recompensa. É diferente da injeção de prompts, em que um terceiro orienta deliberadamente o comportamento do modelo, e diferente do enviesamento, que é propriedade estatística dos dados de treino e das fronteiras de decisão. A confabulação pode coexistir com ambos. Um modelo que confabula pode estar enviesado e pode ser explorado, e tanto o enviesamento como a exploração resultam mais eficazes precisamente porque o utilizador não distingue de modo fiável a saída autorizada da inventada.

Como os reguladores tratam este risco

A convergência é marcante. Três dos regimes de governação mais estruturantes (o Regulamento europeu da IA, o NIST AI 600-1 e a norma ISO/IEC 42001) tratam a alucinação, a transparência e a verificabilidade das saídas generativas como restrições centrais de concepção, ainda que com vocabulário diferente.

Regulamento UE da IA: obrigações de transparência do artigo 50.º

O artigo 50.º do Regulamento UE da IA fixa obrigações de transparência para sistemas destinados a interagir com pessoas singulares e para sistemas que geram conteúdos sintéticos. Os fornecedores devem marcar a saída como gerada artificialmente num formato legível por máquina. Os responsáveis pela implementação de sistemas de IA que geram ou manipulam conteúdos imagem, áudio ou vídeo que constituam deepfakes devem declarar que o conteúdo foi gerado ou manipulado artificialmente. Estas obrigações existem porque o legislador concluiu que as saídas generativas não se identificam de modo fiável a si mesmas, o que é a definição operativa do risco de confabulação transposta para o direito (Parlamento Europeu, AI Act).

A Comissão foi inequívoca. Ao abrigo do Regulamento dos Serviços Digitais, enviou pedidos formais de informação a seis plataformas em linha de muito grande dimensão e a dois motores de busca em linha de muito grande dimensão sobre as medidas de mitigação dos riscos da IA generativa. A lista de riscos nomeados pela Comissão abre com «as alucinações, em que a IA fornece informações falsas», e prossegue com a difusão viral de deepfakes, a manipulação automatizada de serviços e processos eleitorais, a difusão de conteúdos ilícitos, a violação de direitos fundamentais e a exposição à propriedade intelectual (Comissão Europeia, RFI GenAI 2024).

Regulamento UE da IA: obrigações GPAI (artigos 51.º a 55.º)

Os modelos de IA de uso geral têm um capítulo próprio. O artigo 51.º distingue o GPAI comum do GPAI com risco sistémico. O artigo 53.º obriga todos os fornecedores de modelos GPAI a publicar documentação técnica, uma política de utilização aceitável e um resumo suficientemente detalhado do conteúdo usado para treino (artigo 53.º, n.º 1, alínea d). O artigo 55.º acrescenta, para os modelos com risco sistémico, avaliação do modelo, testes adversariais, comunicação de incidentes graves e requisitos de cibersegurança. Tanto o resumo dos dados de treino como a obrigação de teste adversarial reconhecem que uma geração opaca, em que as saídas não podem ser ligadas a uma proveniência identificável, é um perigo regulatório.

A maior parte do Regulamento aplica-se desde 2 de Agosto de 2026. As proibições e as disposições sobre literacia em IA aplicam-se desde 2 de Fevereiro de 2025.

NIST AI 600-1: a confabulação entre doze categorias

Como referido, o NIST AI 600-1 coloca a confabulação ao lado dos riscos CBRN, da privacidade dos dados, dos enviesamentos prejudiciais, da integridade da informação, da segurança da informação, da propriedade intelectual e da integração da cadeia de valor. O perfil inclui mais de duzentas acções recomendadas associadas às quatro funções do AI RMF de base (Govern, Map, Measure, Manage). Para a confabulação, as recomendações concentram-se em ancorar as saídas em fontes verificáveis, comunicar a incerteza ao utilizador e estruturar a supervisão humana na camada da interface.

ISO/IEC 42001: a resposta operacional

A ISO/IEC 42001:2023, primeira norma internacional para sistemas de gestão de IA (AIMS), oferece às organizações um quadro certificável. A cláusula 6.1.3 (tratamento do risco) e os controlos do anexo A relativos à avaliação de impacto do sistema de IA, à qualidade dos dados e à supervisão humana operacionalizam a resposta à confabulação como controlo documentado. A norma exige avaliações de impacto para sistemas de elevado impacto e impõe a identificação, avaliação e mitigação documentadas de enviesamento, responsabilidade, protecção de dados, supervisão humana, explicabilidade e equidade (ISO/IEC 42001:2023). Um AIMS certificado fornece uma resposta defensável à questão «como gere a confabulação em produção?» porque a norma transforma essa questão em provas auditáveis, em vez de garantias ad hoc.

Porque qualquer outro risco habitualmente citado depende deste

Os listicles não se enganam nos elementos que enumeram. Enganam-se na estrutura. Enviesamento, propriedade intelectual, fuga de dados e deepfakes são riscos reais e relevantes. São também, em graus diferentes, derivados do défice de verificabilidade que a confabulação cria.

Enviesamento

A publicação NIST SP 1270 distingue três camadas de enviesamento em IA: enviesamento computacional vindo dos dados e das escolhas de modelação, enviesamento sistémico vindo de padrões institucionais mais amplos, e enviesamento humano na interpretação e no uso (NIST SP 1270). O enviesamento torna-se um problema de implementação quando o utilizador não consegue verificar se uma saída reflecte os elementos de prova subjacentes ou um artefacto estatístico. Se não se conseguir saber se a resposta é inventada, também não se consegue saber se está enviesada. Os dois modos de falha partilham o mesmo ponto cego diagnóstico.

Propriedade intelectual e direitos de autor

Modelos generativos treinados com material protegido podem produzir saídas que reproduzem ou parafraseiam estreitamente a fonte. O artigo 53.º, n.º 1, alínea d, do Regulamento UE da IA obriga os fornecedores a publicar um resumo suficientemente detalhado dos dados de treino: um controlo de transparência que ataca a mesma raiz, isto é, saídas cuja filiação ao material de origem não pode ser reconstituída. O código de práticas sobre marcação e rotulagem de conteúdo gerado por IA inscreve-se na mesma linhagem de controlos de restituição da proveniência.

Fuga de dados e injeção de prompts

O NIST AI 100-2 E2025, a actualização de 2025 da taxonomia oficial norte-americana de ataques de aprendizagem adversarial, classifica os ataques sobre IA preditiva e sobre IA generativa. O OWASP AI Exchange trata a injeção de prompts como categoria distinta mas documenta a alavanca que os atacantes obtêm quando conseguem modelar saídas generativas que o utilizador toma como autoritativas. A injeção de prompts é perigosa precisamente porque o utilizador não dispõe de uma forma fiável de distinguir uma resposta orientada pelo atacante de uma resposta legítima, outra vez o problema da confabulação expresso em chave de segurança.

Deepfakes

Os conteúdos imagem, áudio e vídeo sintéticos produzidos por modelos generativos são o rosto politicamente visível do risco de confabulação. O artigo 50.º, n.º 4, do Regulamento UE da IA impõe a divulgação quando o conteúdo implementado constitui um deepfake. A Comissão Europeia publicou um código de práticas sobre marcação e rotulagem de conteúdo gerado por IA. Não se trata de intervenções regulatórias distintas dirigidas a riscos distintos. É a mesma intervenção aplicada a modalidades de saída diferentes.

O que isto significa para quem implementa (o plano de jogo)

Uma organização que implementa não pode eliminar a alucinação na camada do modelo. Pode, todavia, conceber a sua implementação de modo a interceptar saídas alucinadas antes que cheguem a um utilizador ou a uma autoridade. Quatro camadas, cada uma ancorada a uma obrigação ou controlo nomeados:

Avaliação de impacto do sistema de IA (ISO/IEC 42001 anexo A.6, artigo 27.º do Regulamento UE da IA para o impacto sobre direitos fundamentais). Antes de colocar em produção um sistema generativo numa superfície virada para o utilizador, documente que tipos de saídas o sistema produzirá, que categorias de utilizadores as verão e onde uma saída alucinada provocaria o maior dano concreto. Este artefacto torna-se a porta de entrada para todos os controlos a jusante.
Divulgação e proveniência dos conteúdos (artigo 50.º do Regulamento UE da IA). Marque as saídas geradas por máquina como tal. Aplique metadados de proveniência (C2PA ou equivalente) sobre conteúdos sintéticos. Se o modelo for implementado numa interface conversacional, a divulgação deve estar visível no ecrã, não oculta nas condições de utilização.
Verificação humana em saídas de elevado impacto (artigo 14.º do Regulamento UE da IA para sistemas de alto risco, artigo 26.º para obrigações do responsável pela implementação; função Manage do NIST AI 600-1). Para saídas que influenciam decisões reguladas (crédito, seguros, recrutamento, triagem clínica, aconselhamento jurídico), exija um revisor humano dotado de autoridade e competência para anular o resultado. A eficácia do revisor depende de ferramentas que tornem visível a incerteza, não apenas o texto.
Registo de incidentes e vigilância após introdução no mercado (artigo 72.º do Regulamento UE da IA, cláusula 9 da ISO/IEC 42001). Registe os eventos de confabulação como um fornecedor de software regista os incidentes de produção. Acompanhe frequência, impacto e medidas correctivas. O registo realimenta a engenharia de prompts, a ancoragem por recuperação e as decisões de reformulação de treino.

Uma plataforma como AI Sigil operacionaliza estas camadas como superfície única de sistema de gestão: a avaliação de impacto, o registo de divulgação, o fluxo de supervisão humana e o registo de incidentes tornam-se objectos de primeiro plano e não artefactos dispersos.

Horizonte 2026: para onde vai isto

Quatro sinais convergem na segunda metade de 2026.

Primeiro, a maior parte do Regulamento UE da IA aplica-se desde 2 de Agosto de 2026. As obrigações GPAI entram em vigor. As autoridades de fiscalização do mercado dos Estados-Membros começam a sancionar formalmente os fornecedores e responsáveis pela implementação que não marquem conteúdo sintético, não documentem os dados de treino ou não operacionalizem as obrigações de gestão do risco.

Segundo, a acção da Comissão ao abrigo do DSA sobre riscos da IA generativa, já iniciada com os pedidos formais de 2024, passa da recolha de informação para obrigações substantivas. Os responsáveis de conformidade das plataformas terão de demonstrar, com medições, que saídas alucinadas não influenciam conversas eleitorais nem a difusão de conteúdo ilícito.

Terceiro, a literatura académica está a reposicionar a alucinação: de curiosidade técnica para problema de segurança epistémica. A leitura por camadas proposta por Beyond Accuracy (instabilidade epistémica, desorientação do utilizador, efeitos à escala social) está a tornar-se uma referência para reguladores e auditores.

Quarto, as certificações e normas estão a apanhar o ritmo. As certificações ISO/IEC 42001 escalam. As organizações que construíram os seus controlos de IA generativa em torno do risco de alucinação verão o seu trabalho de certificação sustentar-se sob qualquer regime que venha depois. As que os construíram em torno de um listicle genérico terão de começar de novo.

Perguntas frequentes

O que significa «alucinação» em IA generativa? A alucinação é o modo de falha em que um modelo generativo produz uma saída que soa plausível mas é factualmente errada ou inventada. O NIST usa o termo técnico de confabulação. A saída não é resultado de um bug de software nem de um erro de consulta a uma base de dados. É gerada pelo modelo do mesmo modo que qualquer outro token: seleccionando tokens de elevada probabilidade local dado o contexto. O modelo não sinaliza que partes da sua saída são fiáveis, e é isso que torna a falha perigosa.

A alucinação é a mesma coisa que o enviesamento? Não. O enviesamento é uma propriedade estatística da forma como as decisões de um modelo se distribuem por grupos, contextos ou modalidades. A alucinação é uma falha ao nível do conteúdo em que o modelo produz informação que não corresponde a nenhuma fonte subjacente. Os dois podem coexistir. Um modelo que confabula pode estar enviesado. Mas a mitigação do enviesamento (curadoria de dados, testes de equidade, calibração) não mitiga a confabulação, e vice-versa.

É possível eliminar as alucinações treinando com mais dados? Não. O artigo arXiv de 2025 Hallucination, reliability, and the role of generative AI in science é explícito: mesmo aumentos massivos nos dados de treino não eliminarão a alucinação, porque os erros são produzidos pelo próprio processo de geração e não simplesmente herdados do corpus. Controlos de engenharia (geração aumentada por recuperação, ancoragem de saídas, estimação de incerteza, revisão humana) podem reduzir frequência e impacto, mas nenhuma técnica actual remove o modo de falha na camada do modelo.

O que diz exactamente o Regulamento UE da IA sobre as alucinações? O Regulamento não usa a palavra alucinação. Aborda o problema subjacente indirectamente através do artigo 50.º (transparência e marcação de conteúdo sintético), dos artigos 51.º a 55.º (obrigações GPAI, incluindo resumo dos dados de treino, documentação técnica e avaliação de modelos sistémicos) e do artigo 26.º (responsabilidades do responsável pela implementação). A Comissão Europeia, na sua acção DSA, situou as alucinações como primeiro ponto dos riscos da IA generativa a mitigar.

Como pode um responsável pela implementação reduzir o risco de alucinação em produção? Quatro camadas aplicadas em conjunto: uma avaliação de impacto documentada que nomeie os cenários de dano; uma marcação de divulgação e proveniência sobre o conteúdo de saída; uma verificação humana sobre saídas que influenciam decisões reguladas; e um registo de incidentes ligado à vigilância após introdução no mercado. Nenhuma destas medidas elimina a alucinação, mas em conjunto transformam uma exposição aberta em risco gerido, com controlos documentados e pista de auditoria.

Conclusão

A SERP responde a «what is one major risk associated with generative AI models» com uma lista de dez. A resposta honesta é um só. A alucinação, chamada confabulação no léxico norte-americano, é o risco dominante porque está incorporada na tecnologia e não accionada pelo responsável pela implementação, porque reguladores e normas convergem para ela, porque a investigação de 2025 mostra que escalar não a resolve, e porque todos os restantes riscos habitualmente citados agravam o mesmo défice de verificabilidade. A tarefa de qualquer organização que implemente IA generativa consiste em transformar esse défice numa superfície de controlo gerida: avaliação de impacto, divulgação, supervisão humana, registo de incidentes. Bem feito, o trabalho aguenta a data de aplicação de 2 de Agosto de 2026. Feito como listicle, não aguenta.

Para um olhar mais aprofundado sobre o modo como uma plataforma de governação de IA estrutura estes controlos, ver a plataforma AI Sigil e os recursos Industry Insights.

Sofia Almeida