Todos os domingos, o anfitrião da NPR Will Shortz, o guru das palavras cruzadas do New York Times, chega a um questionário milhares de ouvintes em um segmento de longa duração chamado Domingo Puzzle. Enquanto escrito para ser solucionável sem também Muito presunção, os Branciesasers geralmente são desafiadores, mesmo para concorrentes qualificados.
É por isso que alguns especialistas pensam que são uma maneira promissora de testar os limites das habilidades de solução de problemas da IA.
Em um Estudo recenteuma equipe de pesquisadores que vieram do Wellesley College, Oberlin College, da Universidade do Texas em Austin, Northeastern University, Charles University e Startup Cursor, criaram um benchmark de IA usando enigmas de episódios de sunga de quebra -cabeça. A equipe diz que seu teste descobriu insights surpreendentes, como os modelos de raciocínio – o Open’s O1, entre outros – às vezes “desistir” e fornecer respostas que eles sabem que não estão corretas.
“Queríamos desenvolver uma referência com problemas que os humanos podem entender apenas com conhecimento geral”, disse Arjun Guha, membro do corpo docente de ciência da computação no Nordeste e um dos co-autores do estudo, ao TechCrunch.
A indústria da IA está um pouco de benchmarking no momento. A maioria dos testes comumente usados para avaliar a sonda de modelos de IA para habilidades, como competência em questões de matemática e ciências no nível de doutorado, que não são relevantes para o usuário médio. Enquanto isso, muitos benchmarks – até mesmo benchmarks lançados relativamente recentemente – estão se aproximando rapidamente do ponto de saturação.
As vantagens de um jogo público de rádio como o quebra -cabeça de domingo é que ele não testa o conhecimento esotérico, e os desafios são formulados de modo que os modelos não se baseiam em “memória mecânica” para resolvê -los, explicou Guha.
“Acho que o que torna esses problemas difíceis é que é realmente difícil fazer um progresso significativo em um problema até você resolvê -lo – é quando tudo se une de uma só vez”, disse Guha. “Isso requer uma combinação de insight e um processo de eliminação.”
Nenhuma referência é perfeita, é claro. O quebra -cabeça de domingo é apenas centrado e inglês. E como os testes estão disponíveis ao público, é possível que os modelos treinados neles possam “trapacear” em certo sentido, embora Guha diga que não viu evidências disso.
“Novas perguntas são divulgadas toda semana, e podemos esperar que as perguntas mais recentes sejam verdadeiramente invisíveis”, acrescentou. “Pretendemos manter a referência fresca e rastrear como o desempenho do modelo muda com o tempo”.
Na referência dos pesquisadores, que consiste em cerca de 600 enigmas de sunga, raciocinatos, como modelos como O1 e R1 de Deepseek, superaram o resto. Modelos de raciocínio se checam completamente antes de fornecer resultados, o que os ajuda Evite algumas das armadilhas Isso normalmente tropeça nos modelos de IA. A troca é que os modelos de raciocínio demoram um pouco mais para chegar a soluções-normalmente segundos a minutos mais.
Pelo menos um modelo, o R1 de Deepseek, fornece soluções que ele sabe estar errado para algumas das perguntas do quebra -cabeça de domingo. O R1 indicará literalmente “eu desisto”, seguido de uma resposta incorreta escolhida aparentemente aleatoriamente – comportamento que esse humano certamente pode se relacionar.
Os modelos fazem outras escolhas bizarras, como dar uma resposta errada apenas para retirá -la imediatamente, tentar provocar uma melhor e falhar novamente. Eles também ficam presos “pensando” para sempre e dão explicações sem sentido para obter respostas, ou chegam a uma resposta correta imediatamente, mas depois consideram respostas alternativas sem motivo óbvio.
“Em problemas difíceis, R1 literalmente diz que está ficando ‘frustrado'”, disse Guha. “Foi engraçado ver como um modelo emula o que um humano poderia dizer. Resta ver como a ‘frustração’ no raciocínio pode afetar a qualidade dos resultados do modelo. ”
O modelo atual de melhor desempenho na referência é O1 com uma pontuação de 59%, seguida pelo lançado recentemente O3-mini definido como alto “esforço de raciocínio” (47%). (R1 marcou 35%.) Como uma próxima etapa, os pesquisadores planejam ampliar seus testes para modelos de raciocínio adicionais, que eles esperam que ajudem a identificar áreas onde esses modelos podem ser aprimorados.

“Você não precisa de um doutorado para ser bom no raciocínio, por isso deve ser possível projetar benchmarks de raciocínio que não exigem conhecimento em nível de doutorado”, disse Guha. “Uma referência com acesso mais amplo permite que um conjunto mais amplo de pesquisadores compreenda e analise os resultados, o que, por sua vez, pode levar a melhores soluções no futuro. Além disso, como os modelos de última geração são cada vez mais implantados em ambientes que afetam a todos, acreditamos que todos devem ser capazes de intuir o que esses modelos são-e não são-capazes de “.