SenseTime, um chinês Empresa de IA mais conhecida por seu reconhecimento facial tecnologia, lançou um novo modelo de código aberto na terça-feira que afirma poder gerar e interpretar imagens muito mais rápido do que os principais modelos desenvolvidos por concorrentes dos EUA. SenseNova U1 poderia ajudar a empresa a recuperar o terreno perdido depois que ela caiu de seu lugar entre os principais jogadores na corrida de desenvolvimento de IA da China.
O ingrediente secreto do modelo é sua capacidade de “ler” imagens sem traduzi-las primeiro em texto, acelerando o processo e reduzindo a quantidade de poder de computação necessária. “Todo o processo de raciocínio do modelo não está mais limitado ao texto. Ele também pode raciocinar com imagens”, disse Dahua Lin, cofundador e cientista-chefe da SenseTime, em entrevista à WIRED.
Lin, que também é professor de engenharia da informação na Universidade Chinesa de Hong Kong, afirma que modelos capazes de processar imagens diretamente permitirão que os robôs compreendam melhor o mundo físico no futuro.
Assim como o modelo mais recente da DeepSeek, o SenseTime diz que o U1 pode ser alimentado por chips fabricados na China. “Vários fabricantes de chips nacionais chineses terminaram de otimizar a compatibilidade com nosso novo modelo”, diz Lin. No dia do lançamento, 10 designers de chips chineses, incluindo Cambricon e Biren Technology, anunciaram que seu hardware suporta U1.
Essa flexibilidade é importante porque Controles de exportação dos EUA restringir o acesso das empresas chinesas aos chips de IA mais avançados do mundo, especialmente aqueles utilizados para formação, que neste momento são desenvolvidos principalmente por empresas ocidentais como a Nvidia. “Continuaremos pressionando pelo treinamento em mais chips diferentes”, diz Lin. Mas ele também reconhece que o SenseTime “talvez ainda precise usar os melhores chips para garantir a velocidade de nossa iteração”.
SenseTime lançou o U1 gratuitamente no Hugging Face e no GitHub, outro sinal de como as empresas chinesas estão se tornando alguns dos contribuidores mais ativos da IA de código aberto.
A SenseTime foi fundada em 2014 e se tornou líder mundial em visão computacional, que é usada em aplicações como reconhecimento facial e direção autônoma. Mas quando o ChatGPT e outros sistemas de IA alimentados por processamento de linguagem natural se tornaram o que há de mais quente na indústria de tecnologia, a SenseTime começou a lutar para obter lucro e ficou atrás de startups chinesas mais recentes, como DeepSeek e MiniMax.
A SenseTime diz que espera que o lançamento público do SenseNova-U1 para qualquer pessoa o ajude a alcançar os jogadores de IA nacionais e ocidentais. Lin diz que a empresa finalmente tomou a decisão no ano passado de focar no código aberto por causa do feedback útil que recebe dos pesquisadores, o que permite à empresa iterar mais rapidamente. “Nos dias de hoje, ser de código aberto ou fechado não é o fator vencedor; a velocidade da iteração é”, explica Lin.
Adotar o código aberto também ajuda a SenseTime a continuar colaborando com pesquisadores internacionais sem a interferência da geopolítica. A empresa foi repetidamente sancionada pelo governo dos EUA nos últimos anos devido a alegações de que a sua tecnologia de reconhecimento facial ajudou a alimentar sistemas de vigilância usados para monitorizar e deter uigures e outros grupos minoritários na região chinesa de Xinjiang. Como resultado, as empresas norte-americanas estão impedidas de investir no SenseTime e de lhe vender determinadas tecnologias sem licença. (SenseTime negou as acusações.)
Vendo claramente
Num relatório técnico anexo, a SenseTime afirma que o SenseNova-U1 gera imagens de maior qualidade do que todos os outros modelos de código aberto atualmente no mercado. Seu desempenho é comparável aos principais modelos chineses de código fechado, como Qwen, da Alibaba, e Seedream, da ByteDance, mas ainda fica atrás de líderes do setor, como GPT-Image-2.0, lançado há apenas uma semana.
Mas o principal ponto de venda do modelo é a capacidade de gerar imagens muito mais rápido do que todos esses modelos. Ele se baseia em uma estrutura técnica inovadora chamada NEO-Unify, que a SenseTime apresentou no início deste ano.

