SenseTime, empresa chinesa de IA sancionada, lança modelo de imagem desenvolvido para velocidade

SenseTime, um chinês Empresa de IA mais conhecida por seu reconhecimento facial tecnologia, lançou um novo modelo de código aberto na terça-feira que afirma poder gerar e interpretar imagens muito mais rápido do que os principais modelos desenvolvidos por concorrentes dos EUA. SenseNova U1 poderia ajudar a empresa a recuperar o terreno perdido depois que ela caiu de seu lugar entre os principais jogadores na corrida de desenvolvimento de IA da China.

O ingrediente secreto do modelo é sua capacidade de “ler” imagens sem traduzi-las primeiro em texto, acelerando o processo e reduzindo a quantidade de poder de computação necessária. “Todo o processo de raciocínio do modelo não está mais limitado ao texto. Ele também pode raciocinar com imagens”, disse Dahua Lin, cofundador e cientista-chefe da SenseTime, em entrevista à WIRED.

Lin, que também é professor de engenharia da informação na Universidade Chinesa de Hong Kong, afirma que modelos capazes de processar imagens diretamente permitirão que os robôs compreendam melhor o mundo físico no futuro.

Assim como o modelo mais recente da DeepSeek, o SenseTime diz que o U1 pode ser alimentado por chips fabricados na China. “Vários fabricantes de chips nacionais chineses terminaram de otimizar a compatibilidade com nosso novo modelo”, diz Lin. No dia do lançamento, 10 designers de chips chineses, incluindo Cambricon e Biren Technology, anunciaram que seu hardware suporta U1.

Essa flexibilidade é importante porque Controles de exportação dos EUA restringir o acesso das empresas chinesas aos chips de IA mais avançados do mundo, especialmente aqueles utilizados para formação, que neste momento são desenvolvidos principalmente por empresas ocidentais como a Nvidia. “Continuaremos pressionando pelo treinamento em mais chips diferentes”, diz Lin. Mas ele também reconhece que o SenseTime “talvez ainda precise usar os melhores chips para garantir a velocidade de nossa iteração”.

SenseTime lançou o U1 gratuitamente no Hugging Face e no GitHub, outro sinal de como as empresas chinesas estão se tornando alguns dos contribuidores mais ativos da IA de código aberto.

A SenseTime foi fundada em 2014 e se tornou líder mundial em visão computacional, que é usada em aplicações como reconhecimento facial e direção autônoma. Mas quando o ChatGPT e outros sistemas de IA alimentados por processamento de linguagem natural se tornaram o que há de mais quente na indústria de tecnologia, a SenseTime começou a lutar para obter lucro e ficou atrás de startups chinesas mais recentes, como DeepSeek e MiniMax.

A SenseTime diz que espera que o lançamento público do SenseNova-U1 para qualquer pessoa o ajude a alcançar os jogadores de IA nacionais e ocidentais. Lin diz que a empresa finalmente tomou a decisão no ano passado de focar no código aberto por causa do feedback útil que recebe dos pesquisadores, o que permite à empresa iterar mais rapidamente. “Nos dias de hoje, ser de código aberto ou fechado não é o fator vencedor; a velocidade da iteração é”, explica Lin.

Adotar o código aberto também ajuda a SenseTime a continuar colaborando com pesquisadores internacionais sem a interferência da geopolítica. A empresa foi repetidamente sancionada pelo governo dos EUA nos últimos anos devido a alegações de que a sua tecnologia de reconhecimento facial ajudou a alimentar sistemas de vigilância usados para monitorizar e deter uigures e outros grupos minoritários na região chinesa de Xinjiang. Como resultado, as empresas norte-americanas estão impedidas de investir no SenseTime e de lhe vender determinadas tecnologias sem licença. (SenseTime negou as acusações.)

Uma imagem de amostra criada usando SenseNova U1. Gerado usando IA

Cortesia de SenseTime

Vendo claramente

Num relatório técnico anexo, a SenseTime afirma que o SenseNova-U1 gera imagens de maior qualidade do que todos os outros modelos de código aberto atualmente no mercado. Seu desempenho é comparável aos principais modelos chineses de código fechado, como Qwen, da Alibaba, e Seedream, da ByteDance, mas ainda fica atrás de líderes do setor, como GPT-Image-2.0, lançado há apenas uma semana.

Mas o principal ponto de venda do modelo é a capacidade de gerar imagens muito mais rápido do que todos esses modelos. Ele se baseia em uma estrutura técnica inovadora chamada NEO-Unify, que a SenseTime apresentou no início deste ano.