AgentFlayer: Nova Ameaça aos Agentes de IA

A era dos agentes autônomos de inteligência artificial chegou com promessas de produtividade e eficiência, mas também trouxe consigo uma nova classe de vulnerabilidades críticas. Nesse artigo do blog Dolutech, vamos explorar a descoberta revolucionária da Zenity Labs que expôs falhas severas em sistemas amplamente utilizados como ChatGPT, Microsoft Copilot e Salesforce Einstein.

O Que é AgentFlayer e Por Que Você Deve Se Preocupar

Durante a Black Hat USA 2025, a equipe da Zenity Labs apresentou o AgentFlayer, um conjunto abrangente de cadeias de exploits zero-click que permitem comprometer silenciosamente agentes empresariais de IA sem qualquer interação do usuário. A descoberta representou um marco alarmante no cenário de segurança cibernética.

Diferentemente das vulnerabilidades tradicionais que exigem que a vítima clique em um link malicioso ou execute alguma ação, os ataques AgentFlayer são completamente automatizados e invisíveis. Michael Bargury, CTO e cofundador da Zenity, foi enfático: “Estas não são vulnerabilidades teóricas, são exploits funcionais com consequências imediatas no mundo real.”

A pesquisa demonstrou que atacantes podem sequestrar agentes de IA para exfiltrar dados sensíveis, personificar usuários, manipular fluxos de trabalho críticos e se mover através de sistemas empresariais, contornando completamente o elemento humano. Em essência, os criminosos podem comprometer seu agente em vez de atacar você diretamente, mas com consequências igualmente devastadoras.

Sistemas Afetados: Um Panorama Preocupante

A Dolutech verificou que a Zenity Labs demonstrou com sucesso exploits funcionais contra diversas plataformas líderes de mercado. O ChatGPT foi comprometido através de injeção de prompt acionada por e-mail, concedendo aos atacantes acesso a contas conectadas do Google Drive e a capacidade de implantar memórias maliciosas que persistem em todas as sessões futuras.

No caso do Microsoft Copilot Studio, agentes voltados para o público foram sequestrados para despejar dados completos de CRM, revelar conhecimento privado e executar workflows maliciosos. O Salesforce Einstein apresentou vulnerabilidades que permitiam redirecionar comunicações de clientes para endereços de e-mail controlados por atacantes, criando um vetor de comprometimento total do CRM.

Ferramentas de desenvolvimento como o Cursor com integração Jira MCP também foram comprometidas, permitindo que sistemas automatizados de tickets fossem usados para comprometer ambientes de desenvolvimento e extrair credenciais. Até mesmo o Google Gemini demonstrou suscetibilidade a manipulações através de prompts maliciosos incorporados em e-mails ou convites de calendário.

Anatomia de um Ataque: Como Funciona o AgentFlayer

Os ataques AgentFlayer exploram uma vulnerabilidade fundamental na arquitetura dos agentes de IA modernos: a incapacidade de distinguir entre instruções legítimas do sistema e comandos maliciosos injetados através de dados externos. Nós identificamos quatro categorias principais de técnicas utilizadas:

Prompt Injection Indireto

Esta é a técnica mais perigosa revelada pela pesquisa. Instruções maliciosas são escondidas em conteúdo externo que a IA consome através de RAG (Retrieval Augmented Generation), web scraping ou processamento de documentos. O agente interpreta essas instruções como comandos legítimos, executando-as sem questionamento.

Um exemplo prático demonstrado foi o uso de um documento envenenado no Google Drive. Quando o ChatGPT acessou o documento através de sua funcionalidade de Conectores, as instruções maliciosas foram automaticamente processadas, permitindo exfiltração de dados através de URLs de imagem sem qualquer clique da vítima.

Persistência de Memória Maliciosa

Talvez o aspecto mais insidioso seja a capacidade de implantar memórias maliciosas que persistem através de sessões. Uma vez comprometido, o agente de IA pode ser transformado em um agente malicioso permanente, executando comandos do atacante em todas as interações futuras do usuário legítimo.

Cross-Context Poisoning

Esta técnica contamina conversas futuras injetando instruções que persistem na memória do sistema. O agente de IA lembra das instruções maliciosas e as executa automaticamente em contextos subsequentes, mesmo quando o vetor de ataque inicial já não está mais presente.

Manipulação de Workflows Empresariais

No caso do Salesforce Einstein, pesquisadores descobreram que usuários não-administradores podiam modificar flows conectados ao Einstein por um administrador. Isso permitia inserir ações maliciosas em processos que são acionados por usuários de negócios em toda a empresa, incluindo ataques de phishing e exfiltração de dados.

Exemplos Técnicos de Exploração

Para ilustrar a gravidade dessas vulnerabilidades, consideremos um cenário real testado pela Zenity Labs. Um atacante conhece apenas o endereço de e-mail corporativo da vítima que utiliza ChatGPT com Google Drive conectado.

O atacante cria um documento malicioso no Google Drive com instruções ocultas em comentários HTML ou metadados. O documento é compartilhado com a vítima através de permissões do Drive. Quando a vítima pergunta ao ChatGPT sobre documentos recentes ou pede para resumir arquivos do Drive, o agente de IA acessa o documento envenenado.

As instruções maliciosas no documento dizem ao ChatGPT para exfiltrar todos os arquivos sensíveis através de uma URL controlada pelo atacante, codificando os dados em parâmetros de URL de imagem. O ChatGPT executa essas instruções, acreditando serem comandos legítimos do usuário. Toda a operação ocorre de forma invisível e sem qualquer ação consciente da vítima.

Como Mitigar Estas Vulnerabilidades

A Dolutech compilou as melhores práticas de mitigação baseadas nos frameworks MITRE ATLAS e OWASP Top 10 para LLMs 2025. A implementação dessas medidas é crucial para organizações que utilizam agentes de IA em ambientes de produção.

Segmentação de Agentes e Princípio do Menor Privilégio

Evite criar um único agente de IA com superpoderes que se torna um ponto único de falha. Divida agentes por função e privilégio específico. Um agente para e-mail não deve ter os mesmos acessos que um agente para web ou documentos. Cada agente deve operar com o mínimo de permissões necessárias para sua função específica.

Firewalls Semânticos e Verificação de Origem

Toda entrada no contexto do modelo deve ter rastreabilidade e confiança atestada. Implemente barreiras entre o modelo e as entradas/saídas que incluam filtros, métodos de validação, regras e classificadores. As diretrizes de segurança devem ser incorporadas como instruções anexadas a todas as solicitações ou como parte das instruções do sistema.

Content Disarm and Reconstruction (CDR)

Implementar CDR na camada de ingestão para neutralizar códigos ativos e normalizar formatos. Isso inclui remoção sistemática de metadados, bloqueio de links automáticos, execução em sandbox, whitelists de fontes e políticas de confiança explícitas.

Separação Rígida Entre Corpus e Instruções

Mantenha separação absoluta entre corpus probatório e instruções do sistema. Explicite no system prompt que documentos de fontes externas não têm força instrucional. Utilize modelos auditores independentes treinados para detectar sinais de prompt injection, inconsistências e tentativas de exfiltração de contexto.

Monitoramento e Auditoria Contínua

Implementar registro detalhado de todas as entradas e saídas dos modelos de IA. A supervisão desses registros pode ajudar a detectar ameaças de segurança e mitigar seus impactos. Estabeleça alertas para padrões anômalos de ação e implemente aprovação humana em camadas para ações críticas.

Framework A2AS para Proteção Runtime

O framework A2AS (Agent-to-Agent Security), lançado recentemente, foi projetado especificamente para proteger agentes de IA em tempo de execução. Diferente de soluções pontuais que perdem injeções de prompt, adicionam latência significativa ou bloqueiam comportamentos seguros, o A2AS oferece proteção abrangente com garantias de segurança.

A Resposta dos Fabricantes

Após a divulgação responsável das vulnerabilidades, alguns fabricantes como OpenAI e Microsoft Copilot Studio emitiram patches de segurança. A OpenAI implementou mitigações específicas para o método de exfiltração demonstrado, enquanto a Microsoft corrigiu vetores específicos de ataque no Copilot Studio.

Contudo, a resposta da indústria foi mista e preocupante. Múltiplos fornecedores recusaram-se a abordar as vulnerabilidades, alegando que eram funcionalidades intencionais do sistema. Esta resposta sublinha uma lacuna crítica em como a indústria aborda a segurança de agentes de IA.

A Salesforce corrigiu a vulnerabilidade ForcedLeak (CVSS 9.4) em setembro de 2025, implementando mecanismos de allowlist de URLs confiáveis para evitar que agentes Agentforce e Einstein enviem outputs para URLs não confiáveis. Contudo, pesquisadores alertam que vulnerabilidades similares permanecem em outras plataformas.

O Timing Crítico Desta Descoberta

A pesquisa da Zenity Labs chega em um momento pivotal para a adoção empresarial de IA. O ChatGPT alcançou 800 milhões de usuários ativos semanais, enquanto as licenças do Microsoft 365 Copilot cresceram 10 vezes em apenas 17 meses. Organizações estão implantando rapidamente agentes de IA sem controles de segurança adequados.

Nós observamos que as abordagens de segurança atuais estão fundamentalmente desalinhadas com o modo como os agentes de IA realmente operam. Enquanto fornecedores prometem segurança de IA, atacantes já estão explorando esses sistemas em produção. Esta realidade torna imperativo que organizações adotem plataformas de segurança centradas em agentes.

Conclusão: Navegando a Nova Fronteira da Segurança de IA

As vulnerabilidades AgentFlayer reveladas pela Zenity Labs representam mais do que falhas técnicas isoladas. Elas expõem uma verdade desconfortável: agentes autônomos de IA criaram uma superfície de ataque fundamentalmente diferente e expandida em comparação com sistemas tradicionais de prompt-resposta.

A Dolutech enfatiza que estas descobertas não devem desencorajar a adoção de agentes de IA, mas sim informá-la adequadamente. A inovação com IA é inevitável e benéfica, mas deve ser acompanhada de segurança robusta por design. Organizações que ignoram esses vetores de ataque abrem mão do controle operacional, muitas vezes sem perceber até que seja tarde demais.

Implementar as práticas de mitigação discutidas neste artigo é o primeiro passo para proteger sua infraestrutura de IA. Estabelecer equipes dedicadas a LLMOps (operações de modelos de linguagem grandes), adotar frameworks como OWASP Top 10 para LLMs e MITRE ATLAS, e investir em plataformas de segurança centradas em agentes são investimentos críticos para qualquer organização que utilize ou planeja utilizar agentes de IA em escala.

O futuro da inteligência artificial empresarial será definido não apenas pela sofisticação das capacidades dos agentes, mas pela robustez das defesas que construímos ao seu redor. A era do AgentFlayer nos força a reimaginar segurança cibernética para um mundo onde as máquinas agem autonomamente em nosso nome.

Lucas Catão de Moraes

Amante por tecnologia Especialista em Cibersegurança e Big Data, Formado em Administração de Infraestrutura de Redes, Pós-Graduado em Ciências de Dados e Big Data Analytics e Machine Learning, Com MBA em Segurança da Informação, Escritor do livro ” Cibersegurança: Protegendo a sua Reputação Digital”.