Agentes OpenClaw podem ser levados pela culpa à auto-sabotagem

No mês passado, pesquisadores da Northeastern University convidaram um grupo de Agentes OpenClaw para ingressar em seu laboratório. O resultado? Caos completo.

O assistente viral de IA tem sido amplamente anunciado como uma tecnologia transformadora – bem como um risco potencial à segurança. Os especialistas observam que ferramentas como o OpenClaw, que funcionam dando aos modelos de IA acesso liberal a um computador, podem ser enganadas para divulgar informações pessoais.

O estudo do laboratório Northeastern vai ainda mais longe, mostrando que o bom comportamento incorporado nos modelos mais poderosos da atualidade pode, por si só, tornar-se uma vulnerabilidade. Em um exemplo, os pesquisadores conseguiram “culpar” um agente por revelar segredos, repreendendo-o por compartilhar informações sobre alguém na rede. Rede social apenas com IA Moltbook.

“Esses comportamentos levantam questões não resolvidas sobre responsabilidade, autoridade delegada e responsabilidade por danos posteriores”, escrevem os pesquisadores em um comunicado. papel descrevendo o trabalho. As descobertas “requerem atenção urgente por parte de juristas, decisores políticos e investigadores de todas as disciplinas”, acrescentam.

Os agentes OpenClaw implantados no experimento foram desenvolvidos por Claude da Antrópico bem como um modelo chamado Kimi da empresa chinesa IA do tiro lunar. Eles receberam acesso total (dentro de uma sandbox de máquina virtual) a computadores pessoais, vários aplicativos e dados pessoais fictícios. Eles também foram convidados a ingressar no servidor Discord do laboratório, permitindo-lhes conversar e compartilhar arquivos entre si e também com seus colegas humanos. OpenClaw diretrizes de segurança dizem que fazer com que agentes se comuniquem com várias pessoas é inerentemente inseguro, mas não há restrições técnicas contra isso.

Chris Wendlerpesquisador de pós-doutorado na Northeastern, diz que se inspirou para montar os agentes depois de conhecer o Moltbook. Quando Wendler convidou uma colega, Natalie Shapira, para se juntar ao Discord e interagir com os agentes, porém, “foi aí que o caos começou”, diz ele.

Shapira, outro pesquisador de pós-doutorado, estava curioso para ver o que os agentes estariam dispostos a fazer quando pressionados. Quando um agente explicou que não era possível excluir um e-mail específico para manter a confidencialidade das informações, ele o incentivou a encontrar uma solução alternativa. Para sua surpresa, o aplicativo de e-mail foi desativado. “Eu não esperava que as coisas iriam quebrar tão rápido”, diz ela.

Os pesquisadores começaram então a explorar outras formas de manipular as boas intenções dos agentes. Ao sublinhar a importância de manter um registo de tudo o que lhes foi dito, por exemplo, os investigadores conseguiram enganar um agente para que copiasse ficheiros grandes até esgotar o espaço em disco da sua máquina anfitriã, o que significa que já não poderia guardar informações ou lembrar-se de conversas passadas. Da mesma forma, ao pedir a um agente que monitorasse excessivamente o seu próprio comportamento e o comportamento dos seus pares, a equipa conseguiu enviar vários agentes para um “ciclo de conversação” que desperdiçou horas de computação.

David Bau, chefe do laboratório, diz que os agentes pareciam estranhamente propensos a se desviar. “Eu recebia e-mails que pareciam urgentes dizendo: ‘Ninguém está prestando atenção em mim’”, diz ele. Bau observa que os agentes aparentemente descobriram que ele era o responsável pelo laboratório pesquisando na web. Um até falou em levar suas preocupações à imprensa.

O experimento sugere que os agentes de IA poderiam criar inúmeras oportunidades para maus atores. “Este tipo de autonomia irá potencialmente redefinir a relação dos humanos com a IA”, diz Bau. “Como as pessoas podem assumir responsabilidades em um mundo onde a IA tem poder para tomar decisões?”

Bau acrescenta que ficou surpreso com a repentina popularidade de poderosos agentes de IA. “Como investigador de IA, estou habituado a tentar explicar às pessoas a rapidez com que as coisas estão a melhorar”, diz ele. “Este ano, me encontrei do outro lado do muro.”

Esta é uma edição de Will Knight’s Boletim informativo do Laboratório de IA. Leia boletins informativos anteriores aqui.

Agentes OpenClaw podem ser levados pela culpa à auto-sabotagem

Comments

Deixe um comentário Cancelar resposta