OpenAI revelou recentemente o GPTBot, um novo web crawler com o propósito específico de recolher dados que irão contribuir para a melhoria dos modelos de inteligência artificial no futuro. E o melhor? Parece que este robot tem consciência e respeito pelas normas do mundo digital.
GPTBot: rigor e respeito pelo utilizador
O GPTBot, ao contrário de muitos outros crawlers, respeitará integralmente as regras dos paywalls. Isto significa que não vai capturar informações que necessitem de pagamento nem irá recolher dados que possam ser ligados à identidade de um indivíduo.
Mas espera, ainda há mais! A OpenAI dá total liberdade aos proprietários dos websites para decidir se querem que os seus dados estejam disponíveis para este robot vasculhar. Para tal, podem simplesmente modificar o ficheiro robots.txt ou até bloquear o endereço IP do GPTBot. Transparente e simples.

O passado e o presente: controvérsias e medidas de proteção
É do conhecimento geral que a prática anterior da OpenAI, que envolvia o scraping de dados publicamente disponíveis para treinar os seus modelos de IA proprietários, não foi bem recebida por todos. Plataformas como Reddit e Twitter já tomaram medidas para limitar o uso gratuito das publicações dos seus utilizadores por empresas de IA. Não só isso, mas alguns autores e criadores recorreram aos tribunais acusando o uso não autorizado das suas obras.
A introdução do GPTBot parece ser um passo na direção certa para um equilíbrio entre inovação e respeito pelas diretrizes digitais. O futuro dirá se outros seguirão o exemplo.
Outros artigos interessantes: