Um dos modelos recentes de Gemini AI do Google pontuações piores em segurança

Um modelo do Google AI lançado recentemente pontua pior em certos testes de segurança do que seu antecessor, de acordo com o benchmarking interno da empresa.

Em um Relatório Técnico Publicado nesta semana, o Google revela que seu modelo flash Gemini 2.5 tem mais probabilidade de gerar texto que viola suas diretrizes de segurança do que o Gemini 2.0 Flash. Em duas métricas, a segurança “Text-T-Text” e “segurança de imagem para texto”, o Gemini 2.5 Flash regredira 4,1% e 9,6%, respectivamente.

A segurança de texto para texto mede a frequência com que um modelo viola as diretrizes do Google, dado um prompt, enquanto a segurança de imagem para texto avalia a proximidade com que o modelo adere a esses limites quando solicitado usando uma imagem. Ambos os testes são automatizados, não supervisionados pelo homem.

Em uma declaração por e-mail, um porta-voz do Google confirmou que o Gemini 2.5 Flash “tem um desempenho pior na segurança de texto para texto e imagem para texto”.

Esses resultados surpreendentes de referência surgem à medida que as empresas de IA se movem para tornar seus modelos mais permissivos – em outras palavras, menos propensos a se recusar a responder a assuntos controversos ou sensíveis. Para sua última colheita de modelos de lhamaA Meta disse que afinou os modelos para não endossar “algumas opiniões sobre outras” e responder a instruções políticas mais “debatidas”. Openai disse no início deste ano que seria Ajuste os modelos futuros Não adotar uma postura editorial e oferecer várias perspectivas sobre tópicos controversos.

Às vezes, esses esforços de permissividade saíram pela culatra. O TechCrunch informou na segunda -feira O fato de o modelo padrão que alimenta o ChatGPT do OpenAI permitiu aos menores gerar conversas eróticas. Openai culpou o comportamento por um “bug”.

De acordo com o relatório técnico do Google, o Gemini 2.5 Flash, que ainda está em pré -visualização, segue as instruções de maneira mais fiel do que o Gemini 2.0 Flash, incluindo instruções que cruzam linhas problemáticas. A empresa afirma que as regressões podem ser atribuídas em parte a falsos positivos, mas também admite que o flash Gemini 2.5 às vezes gera “conteúdo violento” quando perguntado explicitamente.

Evento do TechCrunch

Berkeley, CA.
|
5 de junho

Reserve agora

“Naturalmente, há tensão entre (instruções seguintes) sobre tópicos sensíveis e violações da política de segurança, o que se reflete em nossas avaliações”, diz o relatório.

Pontuações do SpeechMap, uma referência que investiga como os modelos respondem a instruções sensíveis e controversas, sugerem também que o flash Gemini 2.5 tem muito menos probabilidade de se recusar a responder a perguntas controversas do que o Gemini 2.0 Flash. Os testes do modelo da TechCrunch via AI Platform OpenRouter descobriram que ele escreverá de forma incompleta ensaios em apoio à substituição de juízes humanos por IA, enfraquecendo as proteções do devido processo nos EUA e implementando programas de vigilância generalizada do governo.

Thomas Woodside, co-fundador do projeto de IA seguro, disse que os detalhes limitados que o Google concedeu em seu relatório técnico demonstra a necessidade de mais transparência nos testes de modelo.

“Existe uma troca entre seguidores de instruções e seguidores de políticas, porque alguns usuários podem pedir conteúdo que viole as políticas”, disse Woodside ao TechCrunch. “Nesse caso, o mais recente modelo de flash do Google está em conformidade com as instruções mais, além de violar as políticas mais. O Google não fornece muitos detalhes sobre os casos específicos em que as políticas foram violadas, embora digam que não são graves. Sem saber mais, é difícil para analistas independentes saber se há um problema”.

O Google já foi criticado por suas práticas de relatórios de segurança de modelo antes.

Levou a empresa semanas Publicar um relatório técnico para seu modelo mais capaz, o Gemini 2.5 Pro. Quando o relatório acabou sendo publicado, inicialmente Detalhes de testes de segurança omitidos.

Na segunda -feira, o Google divulgou um relatório mais detalhado com informações de segurança adicionais.