Pixel art of mario jumping on gaming consoles to get a coin.

As pessoas estão usando o Super Mario para comparar a IA agora

Pensamento Pokémon foi um benchmark difícil para a IA? Um grupo de pesquisadores argumenta que Super Mario Bros. é ainda mais difícil.

Hao Ai Lab, uma organização de pesquisa da Universidade da Califórnia em San Diego, na sexta -feira jogou a IA nos Jogos ao Live Super Mario Bros. Antrópico Claude 3.7 realizou o melhor, seguido por Claude 3.5. Google’s Gêmeos 1.5 Pro e Openai’s GPT-4O lutou.

Não foi exatamente a mesma versão do Super Mario Bros. que o lançamento original de 1985, para ser claro. O jogo foi executado em um emulador e integrado a uma estrutura, Gamingagentpara dar o controle do AIS sobre Mario.

Créditos da imagem:Hao Lab

Gamingagent, que Hao desenvolveu internamente, alimentou as instruções básicas da IA, como: “Se um obstáculo ou inimigo estiver próximo, mova/salte para a esquerda para Dodge” e capturas de tela do jogo. A IA gerou entradas na forma de código Python para controlar Mario.

Ainda assim, Hao diz que o jogo forçou cada modelo a “aprender” a planejar manobras complexas e a desenvolver estratégias de jogabilidade. Curiosamente, o laboratório descobriu que modelos de raciocínio como o OpenAI’s O1que “pensa” através de problemas passo a passo para chegar às soluções, tiveram um desempenho pior do que os modelos “não raciocinadores”, apesar de ser geralmente mais forte na maioria dos benchmarks.

Uma das principais razões pelas quais os modelos de raciocínio têm problemas para jogar jogos em tempo real como esse é que eles demoram um pouco-segundos, geralmente-para decidir sobre ações, segundo os pesquisadores. Em Super Mario Bros., o tempo é tudo. Um segundo pode significar a diferença entre um salto com segurança e uma queda para a sua morte.

Os jogos têm sido usados ​​para comparar a IA há décadas. Mas Alguns especialistas questionaram a sabedoria de desenhar conexões entre as habilidades de jogo da IA ​​e o avanço tecnológico. Ao contrário do mundo real, os jogos tendem a ser abstratos e relativamente simples, e fornecem uma quantidade teoricamente infinita de dados para treinar a IA.

Os recentes referências chamativas de jogos apontam para o que Andrej Karpathy, um cientista de pesquisa e membro fundador da Openai, chamou de “crise de avaliação”.

“Eu realmente não sei o que (ai) métricas para olhar agora”, ele escreveu em um postagem em x. “TLDR Minha reação é que eu realmente não sei como esses modelos são bons agora.”

Pelo menos podemos assistir a AI jogar Mario.

Comments

No comments yet. Why don’t you start the discussion?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *