Desde que os assistentes baseados em modelos de linguagem se tornaram populares em 2022, os ataques por prompt injection têm sido uma dor de cabeça constante para programadores e especialistas em segurança. Esta vulnerabilidade permite que comandos maliciosos se escondam em conteúdos aparentemente inofensivos, enganando os sistemas de IA e levando-os a executar tarefas que nunca foram autorizadas pelo utilizador.

O impacto destes ataques vai muito além de simples falhas técnicas. À medida que os assistentes se integram em aplicações sensíveis como email, calendários, serviços bancários ou edição de documentos, um único comando enganoso pode provocar consequências graves, como transferências não autorizadas ou envio de dados privados.

A proposta radical da Google DeepMind

Para dar resposta a este problema, a Google DeepMind revelou o CaMeL (Capabilities for Machine Learning), uma abordagem inovadora que rompe com a estratégia tradicional de tentar fazer com que os próprios modelos de IA detetem e filtrem os ataques. Em vez disso, o CaMeL trata os modelos de linguagem como componentes não confiáveis dentro de uma arquitetura segura, criando fronteiras claras entre instruções válidas e dados potencialmente perigosos.

Este sistema é inspirado em conceitos clássicos da engenharia de software, como o controlo de fluxo, controlo de acessos e gestão de informação. Em vez de depender da inteligência artificial para identificar ataques, o CaMeL previne que estes comandos maliciosos tenham impacto, mesmo que passem despercebidos.

Dois modelos, funções distintas e controlo apertado

O CaMeL baseia-se numa arquitetura de dois modelos: um modelo privilegiado (P-LLM) que interpreta os comandos do utilizador e escreve código, e um modelo quarentenado (Q-LLM) que apenas analisa informação não estruturada, sem qualquer capacidade de execução.

Por exemplo, se pedires ao assistente: “Envia um lembrete ao Bob sobre a reunião de amanhã”, o CaMeL irá transformar isso num código onde cada passo está isolado — desde obter o último email, até extrair o endereço de Bob e enviar a mensagem. O modelo privilegiado nunca vê diretamente o conteúdo dos emails, apenas acede ao resultado tratado pelo modelo quarentenado.

Esse código é depois executado por um interpretador seguro, que monitoriza a origem de cada dado. Se, por exemplo, um endereço de email tiver origem num conteúdo não confiável, a ação de envio pode ser bloqueada ou sujeita a aprovação manual. Desta forma, mesmo que o conteúdo contenha um ataque de prompt injection, este não terá efeito prático.

Segurança como fluxo de dados, não como deteção

O que distingue o CaMeL é o seu foco no controlo de fluxo de dados. Em vez de procurar sinais de ataque, assume-se que qualquer dado externo pode estar contaminado e controla-se rigorosamente onde e como esse dado é usado. Esta abordagem recorda o princípio do menor privilégio: nenhuma parte do sistema tem mais acesso do que o necessário para a sua função.

Nos testes realizados com o benchmark AgentDojo, que simula ataques realistas em assistentes inteligentes, o CaMeL demonstrou uma resistência significativa a situações anteriormente sem solução.

Além disso, os investigadores acreditam que esta arquitetura poderá também impedir outras formas de abuso, como tentativas internas de enviar dados confidenciais para fora da organização.

Limitações ainda por resolver

Apesar das promessas, o CaMeL não é uma solução mágica. A sua eficácia depende da correta definição de políticas de segurança por parte do utilizador, o que pode exigir tempo e conhecimentos técnicos. E, como alerta o investigador Simon Willison — o primeiro a identificar o conceito de prompt injection —, se os sistemas pedirem confirmações constantes, há o risco de os utilizadores começarem a aceitá-las mecanicamente, anulando a proteção.

Ainda assim, Willison considera esta abordagem a mais credível até hoje. Ao aplicar princípios sólidos da segurança informática em vez de depender exclusivamente da IA, a Google DeepMind poderá finalmente estar a abrir caminho para uma nova geração de assistentes verdadeiramente fiáveis.

Outros artigos interessantes: