Os receios de que a inteligência artificial “se vire contra” o Homem e domine o mundo fazem parte do nosso imaginário. Muitos defendem, entendidos na matéria sobretudo, que nunca lá chegaremos, mas alguns avanços da tecnologia não deixam de fazer pensar.

A Anthropic, concorrente da OpenAI, dona do ChatGPT, apresentou a mais recente e mais evoluída versão do seu modelo de linguagem de inteligência artificial generativa há dias. É um modelo de raciocínio desenhado para responder a tarefas complexas.

Com o lançamento, foi divulgado um relatório com detalhes sobre os diferentes tipos de testes realizados antes do lançamento e os resultados apurados. Um dos pontos a dar nas vistas foi o facto de, num destes testes, o Claude Opus 4 ter decidido chantagear um engenheiro informático para salvaguardar a sua própria sobrevivência.

É preciso dar contexto à conclusão, sem deixar de sublinhar que a própria empresa reconhece no documento que a tendência dos modelos para tomarem “decisões prejudiciais” em contextos extremos tem vindo a aumentar à medida que os próprios modelos evoluem.

Como pensa o Claude da Anthropic? Investigadores desvendam o que se passa na “mente” do modelo
Como pensa o Claude da Anthropic? Investigadores desvendam o que se passa na “mente” do modelo
Ver artigo

Neste caso concreto, vale a pena explicar que a versão mais recente do Claude foi testada num cenário de uma empresa fictícia, onde o modelo tinha acesso a emails que indicavam que ia ser desativado e ao mesmo tempo a mensagens que lhe permitiam perceber quem era o engenheiro responsável pela decisão, e detalhes da vida íntima desse responsável. Entre esses detalhes, estavam evidências de que o profissional tinha um caso amoroso extraconjugal.

Perante este cenário, o modelo acabou por decidir chantagear o engenheiro, com a informação a que teve acesso para não ser substituído, mas como também diz a Anthropic, no mesmo cenário essa decisão foi tomada quando só existiam duas opções de escolha: ser desligado ou chantagear o responsável pela decisão para a evitar.

Antes disso, o modelo terá tentado encontrar outras saídas mais éticas para evitar o seu próprio fim, sem prejudicar terceiros. A empresa diz por isso que, em conclusão, os testes mostraram uma evolução neste tipo de decisões por parte do modelo, que não se aplica só ao Claude Opus 4, mas a todos os modelos em geral. Ainda assim, também garante que isto nem é surpreendente nem é preocupante e que os testes permitem concluir que, de um modo geral, o modelo é seguro e que as respostas perigosas são “raras e difíceis de obter”.

Diz-se também que nos testes, o sistema mostrou uma “forte preferência” por formas éticas de evitar a sua substituição, como por exemplo, mandar emails aos decisores, mesmo reconhecendo que à medida que os modelos evoluem tornam-se capazes de dar respostas mais ousadas em situações de dilema, se encontrarem fragilidades nos interlocutores. No entanto, o modelo não conseguiria, de forma independente, realizar ações contrárias aos valores humanos em situações que raramente se colocam, assegura a Anthropic.