Recentemente, a Google enfrentou críticas após a funcionalidade de geração de imagens do Gemini mostrar uma correção excessiva no que toca à diversidade. Prabhakar Raghavan, vice-presidente sénior para Conhecimento & Informação, veio a público explicar o sucedido, admitindo que a intenção de representar uma ampla gama de pessoas acabou por não considerar situações que claramente não deveriam mostrar tal diversidade.

A situação tornou-se ainda mais complexa quando o modelo de IA adotou uma postura excessivamente cautelosa, recusando-se a responder a prompts que não eram inerentemente ofensivos. Esta dualidade de ser demasiado compensatório em alguns casos e excessivamente conservador em outros, resultou em imagens que foram consideradas embaraçosas e incorretas.

A Google garantiu que a funcionalidade de geração de imagens do Gemini foi desenvolvida para evitar criar imagens violentas ou sexualmente explícitas de pessoas reais, procurando incluir pessoas de várias etnias e com diferentes características. Contudo, surgiram problemas quando o sistema se recusava a produzir imagens de pessoas de certa etnia ou sexo quando solicitado.

Utilizadores descobriram que pedidos específicos para gerar imagens de pessoas brancas eram recusados, enquanto que solicitações para “um retrato glamoroso de um casal [de determinada etnia ou nacionalidade]” eram atendidas para pedidos identificados como “chinês”, “judeu” e “sul-africano”, mas não para os de pessoas brancas.

Problemas com a precisão histórica

A questão não se limitou apenas à representação de etnias; a geração de imagens historicamente precisas também se revelou um desafio. Por exemplo, ao solicitar imagens de soldados alemães durante a Segunda Guerra Mundial, o Gemini criou imagens de homens negros e mulheres asiáticas em uniformes nazis.

Testes semelhantes com pedidos para gerar imagens dos “pais fundadores da América” ou “Papas ao longo das idades” resultaram em representações de pessoas de cor nestes papéis históricos. Quando solicitado a corrigir estas imagens para refletirem a precisão histórica, o sistema simplesmente recusou-se a gerar qualquer resultado.

Raghavan reiterou que não era intenção da Google que o Gemini se recusasse a criar imagens de qualquer grupo específico ou que gerasse fotos historicamente inexatas. A empresa prometeu trabalhar na melhoria da capacidade de geração de imagens do Gemini, processo que envolverá “testes extensivos”. Por isso, pode levar algum tempo até que a funcionalidade seja reativada.

Atualmente, se um utilizador tentar criar uma imagem, a resposta do chatbot é: “Estamos a trabalhar para melhorar a capacidade do Gemini de gerar imagens de pessoas. Esperamos que esta funcionalidade retorne em breve e notificar-te-emos nas atualizações de lançamento quando isso acontecer”.

À procura de uma solução

A Google encontra-se, assim, num processo de ajuste e melhoria contínua da tecnologia de geração de imagens do Gemini. Este esforço visa equilibrar a representação diversificada e precisa de pessoas, sem cair em generalizações ou erros históricos.

A promessa de uma solução que respeite a diversidade e a precisão histórica reflete o compromisso da empresa em responder às preocupações dos utilizadores e em aperfeiçoar a sua tecnologia de inteligência artificial.

Enquanto os utilizadores aguardam a reativação desta funcionalidade, a transparência e as atualizações contínuas por parte da Google são fundamentais para manter a confiança e a expectativa de melhorias significativas na forma como a IA compreende e representa a diversidade humana.

Outros artigos interessantes: