Geral AI

Sistema de IA da Meta "Cícero" está aprendendo a mentir e enganar humanos, diz estudo

Os sistemas de inteligência artificial estão aprendendo a mentir para os humanos, com a IA da Meta se destacando como um "mestre do engano", de acordo com especialistas do MIT.

Por Da Redação

16/05/2024 às 02:11:21 - Atualizado há poucos minutos

Foto: Drop Media - Substack

Os sistemas de inteligência artificial estão aprendendo a mentir para os humanos, com a IA da Meta se destacando como um "mestre do engano", de acordo com especialistas do MIT.

Cícero, que a Meta classificou como a "primeira IA a jogar em nível humano" no jogo de estratégia Diplomacia, foi treinado com sucesso pela empresa para se sair muito bem, terminando entre os 10% melhores enquanto competia com jogadores humanos.

Mas Peter S. Park, pós-doutorado em segurança existencial de IA no MIT, disse que Cícero avançou mentindo.

"Descobrimos que a IA da Meta aprendeu a ser uma mestre no engano", escreveu Park em um comunicado à mídia.

"Embora a Meta tenha conseguido treinar sua IA para vencer no jogo da Diplomacia – Cícero ficou entre os 10% melhores jogadores humanos que jogaram mais de um jogo – a Meta não conseguiu treinar sua IA para vencer honestamente."

Segundo Park, Cícero criaria alianças com outros jogadores, "mas quando essas alianças já não serviam ao seu objectivo de vencer o jogo, Cícero traiu sistematicamente os seus aliados".

Durante uma simulação, Cícero, que jogou pela França, concordou com a Inglaterra em criar uma zona desmilitarizada – apenas para depois dar meia-volta e sugerir à Alemanha que atacasse a Inglaterra, de acordo com o estudo.

Park está entre os pesquisadores que contribuíram para um estudo publicado na revista Patterns.

De acordo com o estudo, os sistemas de IA treinados para completar uma tarefa específica, como competir contra humanos em jogos como Diplomacia e pôquer, muitas vezes usam o engano como tática.

Os pesquisadores descobriram que AlphaStar, uma IA criada pela empresa DeepMind, de propriedade do Google, usou táticas enganosas enquanto jogava contra humanos no jogo de estratégia em tempo real Starcraft II.

"AlphaStar explorou a mecânica de névoa de guerra do jogo para fingir: fingir que estava movendo suas tropas em uma direção enquanto planejava secretamente um ataque alternativo", de acordo com o estudo.

Pluribus, outra IA construída pela Meta, competiu contra humanos em um jogo de pôquer durante o qual "blefou com sucesso jogadores humanos para que desistissem", escreveram os pesquisadores.

Outros sistemas de IA "treinados para negociar em transacções económicas" "aprenderam a deturpar as suas verdadeiras preferências para obter vantagem", concluiu o estudo.

"Em cada um desses exemplos, um sistema de IA aprendeu a enganar para aumentar seu desempenho em um tipo específico de jogo ou tarefa", segundo os pesquisadores.

A Meta, liderada pelo CEO Mark Zuckerberg, está gastando bilhões de dólares em investimentos em IA. A empresa tem atualizado seus produtos de compra de anúncios com ferramentas de IA e formatos de vídeo curtos para impulsionar o crescimento da receita, ao mesmo tempo que introduz novos recursos de IA, como um assistente de bate-papo, para impulsionar o envolvimento em suas propriedades de mídia social.

Recentemente, ela anunciou que está dando ao seu assistente Meta AI uma cobrança mais proeminente em todo o seu conjunto de aplicativos, o que significa que começará a ver o quão popular o produto é entre os usuários no segundo trimestre.

"Os jogos têm sido um campo de provas para novos avanços em IA e há uma tradição de pesquisadores de IA trabalhando na resolução de problemas neste contexto", disse um porta-voz da Meta ao The Post.

"Nosso trabalho com Cícero foi puramente um projeto de pesquisa e os modelos que nossos pesquisadores construíram são treinados exclusivamente para jogar o jogo Diplomacia."

A Meta disse que "liberou artefatos deste projeto sob uma licença não comercial, de acordo com nosso compromisso de longa data com a ciência aberta".

"A Meta compartilha regularmente os resultados de nossa pesquisa para validá-los e permitir que outros desenvolvam de forma responsável nossos avanços", disse um representante da empresa ao Post.

"Não temos planos de usar esta pesquisa ou seus aprendizados em nossos produtos."

Os especialistas também descobriram que OpenAIs GPT-4 e outros grandes modelos de linguagem (LLMs) podem não apenas "se envolver em conversas assustadoramente humanas", mas também estão "aprendendo a enganar de maneiras sofisticadas".

De acordo com os autores do estudo, o GPT-4 "enganou com sucesso um trabalhador humano do TaskRabbit para que resolvesse um teste Captcha, fingindo ter uma deficiência visual".

O estudo descobriu que os LLMs são capazes de demonstrar "bajulação", na qual "dizem ao usuário o que ele quer ouvir, em vez da verdade".

Park alertou sobre os perigos potenciais de sistemas avançados de IA usarem métodos enganosos em suas relações com humanos.

"Nós, como sociedade, precisamos de todo o tempo possível para nos prepararmos para o engano mais avançado dos futuros produtos de IA e modelos de código aberto", disse Park.

"À medida que as capacidades enganosas dos sistemas de IA se tornam mais avançadas, os perigos que representam para a sociedade tornar-se-ão cada vez mais graves."

Park disse que se fosse "politicamente inviável" proibir o engano da IA, "recomendamos que os sistemas de IA enganosos sejam classificados como de alto risco".

Em março do ano passado, Elon Musk juntou-se a mais de 1.000 outros líderes tecnológicos na assinatura de uma carta apelando a uma pausa no desenvolvimento dos sistemas de IA mais avançados devido aos "profundos riscos para a sociedade e a humanidade".

Fonte: Isto É