Alibaba Apresenta o QwQ-32B: Um Revolucionário Modelo de IA com Aprendizado por Reforço

A equipe Qwen da Alibaba lançou recentemente o QwQ-32B, um modelo de IA com 32 bilhões de parâmetros que apresenta desempenho comparável ao do muito mais robusto DeepSeek-R1. Essa inovação ressalta o grande potencial de escalabilidade do Aprendizado por Reforço (RL) aplicado a modelos de base sólidos.

A equipe Qwen integrou com sucesso as capabilidades de agentes ao modelo de raciocínio, permitindo que ele pense criticamente, utilize ferramentas e adapte seu raciocínio com base no feedback ambiental.

“A escalabilidade do RL pode aprimorar o desempenho do modelo além dos métodos convencionais de pré e pós-treinamento,” afirmou a equipe. “Estudos recentes demonstraram que o RL pode melhorar significativamente as capacidades de raciocínio dos modelos.”

O QwQ-32B atinge um desempenho que rivaliza com o DeepSeek-R1, que conta com 671 bilhões de parâmetros (desses, 37 bilhões estão ativados), evidenciando a eficácia do RL quando aplicado a modelos de base robustos pré-treinados com um vasto conhecimento mundial. Este resultado impressionante destaca o potencial do RL em reduzir a lacuna entre o tamanho do modelo e seu desempenho.

O modelo foi avaliado em uma variedade de benchmarks, incluindo AIME24, LiveCodeBench, LiveBench, IFEval e BFCL, projetados para testar suas habilidades em raciocínio matemático, proficiência em programação e capacidades gerais de resolução de problemas.

Resultados do Benchmark do QwQ-32B

Os resultados mostram o desempenho do QwQ-32B em comparação com outros modelos líderes, incluindo DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e o modelo original DeepSeek-R1.

  • AIME24: QwQ-32B alcançou 79,5, ligeiramente atrás do DeepSeek-R1-6718, que obteve 79,8, mas significativamente à frente do OpenAI-o1-mini, que ficou com 63,6.
  • LiveCodeBench: O QwQ-32B marcou 63,4, novamente muito próximo do DeepSeek-R1-6718, que teve 65,9, superando os modelos destilados e o OpenAI-o1-mini, que obteve 53,8.
  • LiveBench: O desempenho do QwQ-32B foi de 73,1, enquanto o DeepSeek-R1-6718 alcançou 71,6, superando os modelos destilados e o OpenAI-o1-mini com 57,5.
  • IFEval: O QwQ-32B pontuou 83,9, muito próximo dos 83,3 do DeepSeek-R1-6718, liderando em relação aos modelos destilados e o OpenAI-o1-mini, que ficou com 59,1.
  • BFCL: O QwQ-32B obteve 66,4, enquanto o DeepSeek-R1-6718 registrou 62,8, demonstrando vantagem sobre os modelos destilados e o OpenAI-o1-mini, que teve 49,3.

Como o QwQ-32B Trabalha

A abordagem da equipe Qwen inclui uma verificação de ponto frio e um processo de RL em várias etapas impulsionado por recompensas baseadas em resultados. A fase inicial concentrou-se na escalabilidade do RL para tarefas matemáticas e de programação, utilizando verificadores de precisão e servidores de execução de código. A segunda fase se ampliou para capacidades gerais, incorporando recompensas de modelos de recompensa gerais e verificadores baseados em regras.

“Descobrimos que esta fase de treinamento de RL com um número reduzido de etapas pode aumentar o desempenho de outras capacidades gerais, como seguir instruções, alinhamento com preferências humanas e desempenho de agentes, sem queda significativa no desempenho em matemática e programação,” explicou a equipe.

Disponibilidade e Futuro do QwQ-32B

O QwQ-32B é de código aberto e está disponível no Hugging Face e no ModelScope, sob a licença Apache 2.0, além de ser acessível via Qwen Chat. A equipe acredita que este é um passo inicial para escalar o RL e aprimorar as capacidades de raciocínio, com o objetivo de explorar ainda mais a integração de agentes com RL para raciocínio de longo prazo.

“Ao trabalharmos no desenvolvimento da próxima geração do Qwen, estamos confiantes de que a combinação de modelos de base mais fortes com RL, impulsionados por recursos computacionais escalados, nos aproximará de alcançar a Inteligência Artificial Geral (AGI),” concluiu a equipe.

📺 Aprenda mais em nosso Instagram

Clique para ver o vídeo

Aprenda Mais Sobre IA e Tecnologia

Se você está interessado em explorar mais sobre IA e entender como essa tecnologia pode transformar a sua carreira, confira nosso curso exclusivo sobre como lucrar com IA. Nele, você irá aprender através de aulas práticas e conteúdos relevantes como aplicar a inteligência artificial no seu negócio.

🚀 Aprenda a lucrar com IA:

Acesse aqui

Perguntas Frequentes (FAQ)

1. O que é o QwQ-32B?

O QwQ-32B é um modelo de inteligência artificial desenvolvido pela Alibaba com 32 bilhões de parâmetros, projetado para oferecer um desempenho avançado em raciocínio e resolução de problemas usando Aprendizado por Reforço.

2. Como posso utilizar o QwQ-32B?

O modelo pode ser utilizado em diversas aplicações, desde programação e análises matemáticas até ferramentas de inteligência artificial que se adaptam ao feedback do usuário.

3. Onde posso encontrar mais informações sobre o QwQ-32B?

Para mais detalhes, você pode acessar as plataformas Hugging Face e ModelScope, onde o modelo está disponível ao público.

Palavras-chave: QwQ-32B, aprendizado por reforço, inteligência artificial, Alibaba, DeepSeek-R1, desempenho de IA, modelos de base, raciocínio matemático, solução de problemas, curso de IA.

Se você curtiu este artigo, não esqueça de comentar abaixo, compartilhar com amigos e conferir mais conteúdos sobre tecnologia e inteligência artificial no nosso canal @canalsegredosdodigital. Há dicas exclusivas e tendências do mercado digital esperando por você!

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *