
Os receios de que a inteligência artificial “se vire contra” o Homem e domine o mundo fazem parte do nosso imaginário. Muitos defendem, entendidos na matéria sobretudo, que nunca lá chegaremos, mas alguns avanços da tecnologia não deixam de fazer pensar.
A Anthropic, concorrente da OpenAI, dona do ChatGPT, apresentou a mais recente e mais evoluída versão do seu modelo de linguagem de inteligência artificial generativa há dias. É um modelo de raciocínio desenhado para responder a tarefas complexas.
Com o lançamento, foi divulgado um relatório com detalhes sobre os diferentes tipos de testes realizados antes do lançamento e os resultados apurados. Um dos pontos a dar nas vistas foi o facto de, num destes testes, o Claude Opus 4 ter decidido chantagear um engenheiro informático para salvaguardar a sua própria sobrevivência.
É preciso dar contexto à conclusão, sem deixar de sublinhar que a própria empresa reconhece no documento que a tendência dos modelos para tomarem “decisões prejudiciais” em contextos extremos tem vindo a aumentar à medida que os próprios modelos evoluem.
Neste caso concreto, vale a pena explicar que a versão mais recente do Claude foi testada num cenário de uma empresa fictícia, onde o modelo tinha acesso a emails que indicavam que ia ser desativado e ao mesmo tempo a mensagens que lhe permitiam perceber quem era o engenheiro responsável pela decisão, e detalhes da vida íntima desse responsável. Entre esses detalhes, estavam evidências de que o profissional tinha um caso amoroso extraconjugal.
Perante este cenário, o modelo acabou por decidir chantagear o engenheiro, com a informação a que teve acesso para não ser substituído, mas como também diz a Anthropic, no mesmo cenário essa decisão foi tomada quando só existiam duas opções de escolha: ser desligado ou chantagear o responsável pela decisão para a evitar.
Antes disso, o modelo terá tentado encontrar outras saídas mais éticas para evitar o seu próprio fim, sem prejudicar terceiros. A empresa diz por isso que, em conclusão, os testes mostraram uma evolução neste tipo de decisões por parte do modelo, que não se aplica só ao Claude Opus 4, mas a todos os modelos em geral. Ainda assim, também garante que isto nem é surpreendente nem é preocupante e que os testes permitem concluir que, de um modo geral, o modelo é seguro e que as respostas perigosas são “raras e difíceis de obter”.
Diz-se também que nos testes, o sistema mostrou uma “forte preferência” por formas éticas de evitar a sua substituição, como por exemplo, mandar emails aos decisores, mesmo reconhecendo que à medida que os modelos evoluem tornam-se capazes de dar respostas mais ousadas em situações de dilema, se encontrarem fragilidades nos interlocutores. No entanto, o modelo não conseguiria, de forma independente, realizar ações contrárias aos valores humanos em situações que raramente se colocam, assegura a Anthropic.
Pergunta do Dia
Em destaque
-
Multimédia
Mario Kart World tem novos modos de jogo e um mundo aberto à exploração -
App do dia
Esta app ajuda a dar os primeiros passos para quem quer tocar piano -
Site do dia
Nova plataforma online Devlogs.gg apoia criadores de jogos Indie -
How to TEK
Como eliminar as passwords guardadas no Google Chrome, Edge e Firefox?
Comentários