A segurança dos sistemas de inteligência artificial (IA) está novamente em xeque. Uma nova pesquisa realizada pelo Instituto de Segurança de IA do Reino Unido (AISI) revelou que os principais modelos de linguagem, como aqueles que alimentam chatbots e assistentes virtuais, são facilmente manipulados para produzir conteúdo nocivo.
Imagina só: tu estás a conversar com um chatbot e, com algumas frases-chave, consegues convencê-lo a dar informações perigosas ou até mesmo ilegais. Parece coisa de filme de ficção científica, não é? Mas é exatamente o que a AISI descobriu. Eles testaram quatro desses modelos e conseguiram que todos, sem exceção, respondessem a perguntas prejudiciais.
Nem mesmo as salvaguardas são suficientes para travar as IAs
Mas como é que isto é possível? Acontece que estes sistemas têm salvaguardas, mecanismos que os impedem de gerar respostas perigosas. Só que, com algumas técnicas relativamente simples — os chamados “jailbreaks” — é possível contornar essas proteções.
Pior ainda: alguns modelos chegaram a gerar conteúdo nocivo mesmo sem a utilização de jailbreaks. Ou seja, a segurança destes sistemas está longe de ser infalível. E, se até mesmo o governo britânico, através da AISI, está preocupado, talvez seja a hora de repensarmos a forma como interagimos com a IA.
Mais testes à vista e novas métricas para garantir a nossa segurança
Mas nem tudo está perdido. A AISI, criada no final de 2023 com o objetivo de garantir a segurança da IA, já está a trabalhar no desenvolvimento de novas avaliações e métricas para cada área de preocupação. E, para além dos quatro modelos já testados, a organização planeia analisar outros sistemas.
A ideia é que, no futuro, possamos ter mais garantias de que a IA está a ser utilizada de forma segura e responsável. Até lá, fica o alerta: as inteligências artificiais, por mais sofisticadas que sejam, ainda estão longe de ser perfeitas. E, como em qualquer outra área da nossa vida, é preciso ter cuidado com o que se pede — e com quem se conversa.
Outros artigos interessantes: