Companhia de tecnologia chinesa Alibaba na segunda -feira lançado Qwen 3, uma família de IA modela que a empresa reivindica as correspondências e, em alguns casos, supera os melhores modelos disponíveis no Google e Openai.
A maioria dos modelos está – ou em breve estará – disponível para download em uma licença “aberta” da plataforma AI Dev Abraçando o rosto e Github. Eles variam em tamanho de 0,6 bilhão de parâmetros a 235 bilhões de parâmetros. Os parâmetros correspondem aproximadamente às habilidades de solução de problemas de um modelo, e os modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.
A ascensão das séries de modelos originadas pela China, como Qwen, aumentou a pressão sobre os laboratórios americanos, como o OpenAI, para fornecer tecnologias de IA mais capazes. Eles também levaram os formuladores de políticas a implementar restrições destinadas a limitar a capacidade das empresas de IA chinesas de obter o chips necessário para treinar modelos.
De acordo com o Alibaba, os modelos QWEN 3 são modelos “híbridos”, no sentido de que eles podem levar tempo e “raciocínio” por meio de problemas complexos ou responder a solicitações mais simples rapidamente. O raciocínio permite que os modelos se checam efetivamente, semelhantes a modelos como o OpenAI’s O3mas ao custo de maior latência.
“Temos modos de pensamento e sem pensamento integrados perfeitamente, oferecendo aos usuários a flexibilidade para controlar o orçamento de pensamento”, escreveu a equipe QWEN em um Postagem do blog. “Esse design permite que os usuários configurem orçamentos específicos da tarefa com maior facilidade.”
Os modelos QWEN 3 suportam 119 idiomas, diz Alibaba, e foram treinados em um conjunto de dados de quase 36 trilhões de tokens. Os tokens são os bits brutos de dados que um modelo processa; 1 milhão de tokens é equivalente a cerca de 750.000 palavras. Alibaba diz que o QWEN 3 foi treinado em uma combinação de livros didáticos, “pares de perguntas e respostas”, trechos de código, dados gerados pela IA e muito mais.
Essas melhorias, juntamente com outras, aumentaram bastante o desempenho de Qwen 3 em comparação com seu antecessor, Qwen 2, diz Alibaba. Na Codeforces, uma plataforma para concursos de programação, o maior modelo QWEN 3-QWEN-3-235B-A22B-apenas bate no OpenAI’s O3-mini e Google’s Gemini 2.5 Pro. QWEN-3-235B-A22B também supera o O3-Mini na versão mais recente do AIME, um desafio de referência matemática e BFCL, um teste para avaliar a capacidade de um modelo de “razão” sobre os problemas.
Mas QWEN-3-235B-A22B não está disponível ao público-pelo menos ainda não.
O maior modelo público de QWEN 3, QWEN3-32B, ainda é competitivo com vários modelos proprietários e abertos de IA, incluindo o R1 da AI Lab Chinese Deepseek. O QWEN3-32B supera o modelo O1 do OpenAI em vários testes, incluindo um benchmark de precisão chamado LiveBench.
Alibaba diz que o QWEN 3 “se destaca” nos recursos de chamada de ferramentas, além de seguir as instruções e copiar formatos de dados específicos. Além de liberar modelos para download, o QWEN 3 está disponível em provedores de nuvem, incluindo fogos de artifício e hiperbólicos.
Tuhin Srivastava, co-fundador e CEO da AI Cloud Host Baseten, disse que Qwen 3 é outro ponto na linha de tendência de modelos abertos, acompanhando o ritmo com sistemas de fonte fechada, como o OpenAI.
“Os EUA estão dobrando a restrição de vendas de chips para a China e as compras da China, mas modelos como Qwen 3 que são de ponta e abertos (…) serão, sem dúvida, usados no mercado interno”, disse ele ao TechCrunch em comunicado. “Isso reflete a realidade de que as empresas estão construindo suas próprias ferramentas (assim como) comprando a prateleira por meio de empresas de modelo fechado, como antropia e OpenAI”.