Um meta -executivo negou na segunda -feira um boato de que a empresa treinou seus novos modelos de IA para apresentar bem em benchmarks específicos, escondendo as fraquezas dos modelos.
O executivo, Ahmad al-Dahle, vice-presidente de IA generativa na Meta, disse em um post em x que “simplesmente não é verdade” que a meta treinou seu LLAMA 4 MODELOS MAVERICOS E LLAMA 4 em “Conjuntos de testes”. Nos benchmarks de IA, os conjuntos de testes são coleções de dados usados para avaliar o desempenho de um modelo após o treino. O treinamento em um conjunto de testes pode inflar enganosamente as pontuações de referência de um modelo, fazendo o modelo parecer mais capaz do que realmente é.
No fim de semana, um boato não fundamentado Isso meta artificialmente aumentou os resultados de referência de seus novos modelos, começaram a circular em X e Reddit. O boato parece ter se originado de um post em um site de mídia social chinês de um usuário que afirma ter renunciado ao meta em protesto pelas práticas de benchmarking da empresa.
Relata que Maverick e Scout executar mal sobre certas tarefas alimentou o boato, assim como a decisão de Meta de usar um Versão experimental e não lançada do Maverick Para obter melhores pontuações na referência LM Arena. Pesquisadores em X têm observado stark diferenças no comportamento do Maverick publicamente para download em comparação com o modelo hospedado na LM Arena.
Al-Dahle reconheceu que alguns usuários estão vendo “qualidade mista” de Maverick e Scout sobre os diferentes provedores de nuvem que hospedam os modelos.
“Desde que abandonamos os modelos assim que estiverem prontos, esperamos que levará vários dias para que todas as implementações públicas sejam discadas”, disse Al-Dahle. “Continuaremos trabalhando com nossas correções de bugs e parceiros de integração.”