Claude teve de escolher entre chantagear ou ser desligado. Chatbot avançou para a chantagem

26 mai 2025 15:18

Nos muitos testes que são feitos aos modelos de inteligência artificial antes de serem lançados há testes de segurança e ética. O chatbot Claude da Anthropic mostrou algumas decisões ousadas nos testes da última versão.

Claude teve de escolher entre chantagear ou ser desligado. Chatbot avançou para a chantagem

Os receios de que a inteligência artificial “se vire contra” o Homem e domine o mundo fazem parte do nosso imaginário. Muitos defendem, entendidos na matéria sobretudo, que nunca lá chegaremos, mas alguns avanços da tecnologia não deixam de fazer pensar.

A Anthropic, concorrente da OpenAI, dona do ChatGPT, apresentou a mais recente e mais evoluída versão do seu modelo de linguagem de inteligência artificial generativa há dias. É um modelo de raciocínio desenhado para responder a tarefas complexas.

Com o lançamento, foi divulgado um relatório com detalhes sobre os diferentes tipos de testes realizados antes do lançamento e os resultados apurados. Um dos pontos a dar nas vistas foi o facto de, num destes testes, o Claude Opus 4 ter decidido chantagear um engenheiro informático para salvaguardar a sua própria sobrevivência.

É preciso dar contexto à conclusão, sem deixar de sublinhar que a própria empresa reconhece no documento que a tendência dos modelos para tomarem “decisões prejudiciais” em contextos extremos tem vindo a aumentar à medida que os próprios modelos evoluem.

Neste caso concreto, vale a pena explicar que a versão mais recente do Claude foi testada num cenário de uma empresa fictícia, onde o modelo tinha acesso a emails que indicavam que ia ser desativado e ao mesmo tempo a mensagens que lhe permitiam perceber quem era o engenheiro responsável pela decisão, e detalhes da vida íntima desse responsável. Entre esses detalhes, estavam evidências de que o profissional tinha um caso amoroso extraconjugal.

Perante este cenário, o modelo acabou por decidir chantagear o engenheiro, com a informação a que teve acesso para não ser substituído, mas como também diz a Anthropic, no mesmo cenário essa decisão foi tomada quando só existiam duas opções de escolha: ser desligado ou chantagear o responsável pela decisão para a evitar.

Antes disso, o modelo terá tentado encontrar outras saídas mais éticas para evitar o seu próprio fim, sem prejudicar terceiros. A empresa diz por isso que, em conclusão, os testes mostraram uma evolução neste tipo de decisões por parte do modelo, que não se aplica só ao Claude Opus 4, mas a todos os modelos em geral. Ainda assim, também garante que isto nem é surpreendente nem é preocupante e que os testes permitem concluir que, de um modo geral, o modelo é seguro e que as respostas perigosas são “raras e difíceis de obter”.

Diz-se também que nos testes, o sistema mostrou uma “forte preferência” por formas éticas de evitar a sua substituição, como por exemplo, mandar emails aos decisores, mesmo reconhecendo que à medida que os modelos evoluem tornam-se capazes de dar respostas mais ousadas em situações de dilema, se encontrarem fragilidades nos interlocutores. No entanto, o modelo não conseguiria, de forma independente, realizar ações contrárias aos valores humanos em situações que raramente se colocam, assegura a Anthropic.

Pergunta do Dia

Em destaque

Últimas

Casa dos Bits · Negócios · 30 mai 2025 06:57

CEO e fundador do Grupo Joom critica burocracia e lentidão dos processos de residência em Portugal mas não se arrepende de investir em Portugal

por Fátima Caçador
Casa dos Bits · Opinião · 29 mai 2025 19:12

IA e Competências Digitais: repensar o assessment para acelerar o talento
Casa dos Bits · How To Tek · 29 mai 2025 18:34

Ofertas "incríveis" de emprego? Publicidade não solicitada? Saiba como lidar com as chamadas de spam

por Rui Parreira
Casa dos Bits · 29 mai 2025 17:31

Burlas online disparam em Portugal com quase 4.000 reclamações recebidas pelo Portal da Queixa
Casa dos Bits · Equipamentos · 29 mai 2025 17:14

Portugueses têm 162 milhões de euros em smartphones "perdidos" nas gavetas

por Rui Parreira
Casa dos Bits · Ciência · 29 mai 2025 16:35

Depois do “feminismo de fachada” com Katy Perry, Blue Origin prepara missão mais discreta

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Claude teve de escolher entre chantagear ou ser desligado. Chatbot avançou para a chantagem

Pergunta do Dia

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Claude teve de escolher entre chantagear ou ser desligado. Chatbot avançou para a chantagem

Como pensa o Claude da Anthropic? Investigadores desvendam o que se passa na “mente” do modelo

Pergunta do Dia

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também