Um modelo do Google AI lançado recentemente pontua pior em certos testes de segurança do que seu antecessor, de acordo com o benchmarking interno da empresa.
Em um Relatório Técnico Publicado nesta semana, o Google revela que seu modelo flash Gemini 2.5 tem mais probabilidade de gerar texto que viola suas diretrizes de segurança do que o Gemini 2.0 Flash. Em duas métricas, a segurança “Text-T-Text” e “segurança de imagem para texto”, o Gemini 2.5 Flash regredira 4,1% e 9,6%, respectivamente.
A segurança de texto para texto mede a frequência com que um modelo viola as diretrizes do Google, dado um prompt, enquanto a segurança de imagem para texto avalia a proximidade com que o modelo adere a esses limites quando solicitado usando uma imagem. Ambos os testes são automatizados, não supervisionados pelo homem.
Em uma declaração por e-mail, um porta-voz do Google confirmou que o Gemini 2.5 Flash “tem um desempenho pior na segurança de texto para texto e imagem para texto”.
Esses resultados surpreendentes de referência surgem à medida que as empresas de IA se movem para tornar seus modelos mais permissivos – em outras palavras, menos propensos a se recusar a responder a assuntos controversos ou sensíveis. Para sua última colheita de modelos de lhamaA Meta disse que afinou os modelos para não endossar “algumas opiniões sobre outras” e responder a instruções políticas mais “debatidas”. Openai disse no início deste ano que seria Ajuste os modelos futuros Não adotar uma postura editorial e oferecer várias perspectivas sobre tópicos controversos.
Às vezes, esses esforços de permissividade saíram pela culatra. O TechCrunch informou na segunda -feira O fato de o modelo padrão que alimenta o ChatGPT do OpenAI permitiu aos menores gerar conversas eróticas. Openai culpou o comportamento por um “bug”.
De acordo com o relatório técnico do Google, o Gemini 2.5 Flash, que ainda está em pré -visualização, segue as instruções de maneira mais fiel do que o Gemini 2.0 Flash, incluindo instruções que cruzam linhas problemáticas. A empresa afirma que as regressões podem ser atribuídas em parte a falsos positivos, mas também admite que o flash Gemini 2.5 às vezes gera “conteúdo violento” quando perguntado explicitamente.
Evento do TechCrunch
Berkeley, CA.
|
5 de junho
“Naturalmente, há tensão entre (instruções seguintes) sobre tópicos sensíveis e violações da política de segurança, o que se reflete em nossas avaliações”, diz o relatório.
Pontuações do SpeechMap, uma referência que investiga como os modelos respondem a instruções sensíveis e controversas, sugerem também que o flash Gemini 2.5 tem muito menos probabilidade de se recusar a responder a perguntas controversas do que o Gemini 2.0 Flash. Os testes do modelo da TechCrunch via AI Platform OpenRouter descobriram que ele escreverá de forma incompleta ensaios em apoio à substituição de juízes humanos por IA, enfraquecendo as proteções do devido processo nos EUA e implementando programas de vigilância generalizada do governo.
Thomas Woodside, co-fundador do projeto de IA seguro, disse que os detalhes limitados que o Google concedeu em seu relatório técnico demonstra a necessidade de mais transparência nos testes de modelo.
“Existe uma troca entre seguidores de instruções e seguidores de políticas, porque alguns usuários podem pedir conteúdo que viole as políticas”, disse Woodside ao TechCrunch. “Nesse caso, o mais recente modelo de flash do Google está em conformidade com as instruções mais, além de violar as políticas mais. O Google não fornece muitos detalhes sobre os casos específicos em que as políticas foram violadas, embora digam que não são graves. Sem saber mais, é difícil para analistas independentes saber se há um problema”.
O Google já foi criticado por suas práticas de relatórios de segurança de modelo antes.
Levou a empresa semanas Publicar um relatório técnico para seu modelo mais capaz, o Gemini 2.5 Pro. Quando o relatório acabou sendo publicado, inicialmente Detalhes de testes de segurança omitidos.
Na segunda -feira, o Google divulgou um relatório mais detalhado com informações de segurança adicionais.