As ferramentas de Inteligência Artificial (IA) têm-se tornado indispensáveis em diversas áreas, como no atendimento ao cliente e na gestão de informações.

Contudo, a sua utilização também traz riscos significativos, principalmente no que diz respeito a ataques de prompts, que podem comprometer a segurança e a confiabilidade dos sistemas.

Ataques de prompts e jailbreaks: como proteger a ia

Esses ataques, classificados como diretos ou indiretos, exploram vulnerabilidades nos modelos de IA para gerar respostas não desejadas ou para obter acesso a informações confidenciais.

Empresas como a Microsoft têm desenvolvido estratégias robustas para mitigar esses riscos e proteger os sistemas de IA contra ameaças.

O que são os ataques de prompts?

Os ataques de prompts podem ser divididos em duas categorias principais: diretos e indiretos. No caso dos ataques diretos, também conhecidos como “jailbreaks”, os utilizadores introduzem comandos maliciosos diretamente nos sistemas de IA, tentando ignorar as suas regras de segurança. Por exemplo, podem solicitar à IA que gere conteúdos ofensivos ou que atue como uma entidade desonesta.

Por outro lado, os ataques indiretos são mais complexos e potencialmente mais perigosos. Nestes casos, as instruções maliciosas estão ocultas em e-mails, documentos ou outros conteúdos processados pela IA. Estas instruções podem ser disfarçadas em texto invisível, codificações ou imagens, permitindo a manipulação do sistema sem que o utilizador tenha consciência disso.

As estratégias de defesa da Microsoft

Para enfrentar estes desafios, a Microsoft desenvolveu uma abordagem multifacetada que combina ferramentas avançadas, investigação em cibersegurança e boas práticas. Entre as soluções destacam-se:

Prompt Shields: Este modelo deteta e bloqueia prompts maliciosos em tempo real, além de simular ataques para avaliar a vulnerabilidade dos sistemas.
Microsoft Defender for Cloud: Recurso que utiliza análises avançadas para prevenir ataques futuros e bloquear atividades suspeitas.
Microsoft Purview: Plataforma que auxilia na gestão de dados sensíveis utilizados em aplicações de IA.

Além destas ferramentas, a empresa reforça a necessidade de uma defesa em camadas, que inclui mensagens de sistema robustas e programas de avaliação contínua, como o Bug Bounty, para identificar vulnerabilidades.

Investigação e avanços na segurança da IA

A equipa de investigação da Microsoft tem contribuído significativamente para o avanço da segurança na IA. Técnicas como o “spotlighting” permitem que os modelos de linguagem distingam instruções legítimas de comandos adversários, reduzindo os riscos de ataques indiretos. Adicionalmente, o estudo de fenómenos como o “task drift” ajuda a identificar desvios no comportamento dos modelos, abrindo novos caminhos para a deteção de ameaças.

Estas iniciativas estão integradas numa estratégia mais ampla de segurança da Microsoft, que inclui a experiência acumulada pela sua AI Red Team e o Microsoft Security Response Center.

Conclusão

Os ataques através de prompts, sejam diretos ou indiretos, representam uma ameaça crescente para os sistemas de IA, mas avanços significativos têm sido feitos para mitigar esses riscos. Com ferramentas especializadas, investigação contínua e uma abordagem de segurança em várias camadas, a Microsoft lidera os esforços para garantir a utilização segura e eficiente das tecnologias de IA.

Saiba mais sobre o trabalho da Microsoft em prol da Responsible AI.

Outros artigos interessantes: