Alibaba Apresenta o QwQ-32B: Um Revolucionário Modelo de IA com Aprendizado por Reforço
A equipe Qwen da Alibaba lançou recentemente o QwQ-32B, um modelo de IA com 32 bilhões de parâmetros que apresenta desempenho comparável ao do muito mais robusto DeepSeek-R1. Essa inovação ressalta o grande potencial de escalabilidade do Aprendizado por Reforço (RL) aplicado a modelos de base sólidos.
A equipe Qwen integrou com sucesso as capabilidades de agentes ao modelo de raciocínio, permitindo que ele pense criticamente, utilize ferramentas e adapte seu raciocínio com base no feedback ambiental.
“A escalabilidade do RL pode aprimorar o desempenho do modelo além dos métodos convencionais de pré e pós-treinamento,” afirmou a equipe. “Estudos recentes demonstraram que o RL pode melhorar significativamente as capacidades de raciocínio dos modelos.”
O QwQ-32B atinge um desempenho que rivaliza com o DeepSeek-R1, que conta com 671 bilhões de parâmetros (desses, 37 bilhões estão ativados), evidenciando a eficácia do RL quando aplicado a modelos de base robustos pré-treinados com um vasto conhecimento mundial. Este resultado impressionante destaca o potencial do RL em reduzir a lacuna entre o tamanho do modelo e seu desempenho.
O modelo foi avaliado em uma variedade de benchmarks, incluindo AIME24, LiveCodeBench, LiveBench, IFEval e BFCL, projetados para testar suas habilidades em raciocínio matemático, proficiência em programação e capacidades gerais de resolução de problemas.
Resultados do Benchmark do QwQ-32B
Os resultados mostram o desempenho do QwQ-32B em comparação com outros modelos líderes, incluindo DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e o modelo original DeepSeek-R1.
- AIME24: QwQ-32B alcançou 79,5, ligeiramente atrás do DeepSeek-R1-6718, que obteve 79,8, mas significativamente à frente do OpenAI-o1-mini, que ficou com 63,6.
- LiveCodeBench: O QwQ-32B marcou 63,4, novamente muito próximo do DeepSeek-R1-6718, que teve 65,9, superando os modelos destilados e o OpenAI-o1-mini, que obteve 53,8.
- LiveBench: O desempenho do QwQ-32B foi de 73,1, enquanto o DeepSeek-R1-6718 alcançou 71,6, superando os modelos destilados e o OpenAI-o1-mini com 57,5.
- IFEval: O QwQ-32B pontuou 83,9, muito próximo dos 83,3 do DeepSeek-R1-6718, liderando em relação aos modelos destilados e o OpenAI-o1-mini, que ficou com 59,1.
- BFCL: O QwQ-32B obteve 66,4, enquanto o DeepSeek-R1-6718 registrou 62,8, demonstrando vantagem sobre os modelos destilados e o OpenAI-o1-mini, que teve 49,3.
Como o QwQ-32B Trabalha
A abordagem da equipe Qwen inclui uma verificação de ponto frio e um processo de RL em várias etapas impulsionado por recompensas baseadas em resultados. A fase inicial concentrou-se na escalabilidade do RL para tarefas matemáticas e de programação, utilizando verificadores de precisão e servidores de execução de código. A segunda fase se ampliou para capacidades gerais, incorporando recompensas de modelos de recompensa gerais e verificadores baseados em regras.
“Descobrimos que esta fase de treinamento de RL com um número reduzido de etapas pode aumentar o desempenho de outras capacidades gerais, como seguir instruções, alinhamento com preferências humanas e desempenho de agentes, sem queda significativa no desempenho em matemática e programação,” explicou a equipe.
Disponibilidade e Futuro do QwQ-32B
O QwQ-32B é de código aberto e está disponível no Hugging Face e no ModelScope, sob a licença Apache 2.0, além de ser acessível via Qwen Chat. A equipe acredita que este é um passo inicial para escalar o RL e aprimorar as capacidades de raciocínio, com o objetivo de explorar ainda mais a integração de agentes com RL para raciocínio de longo prazo.
“Ao trabalharmos no desenvolvimento da próxima geração do Qwen, estamos confiantes de que a combinação de modelos de base mais fortes com RL, impulsionados por recursos computacionais escalados, nos aproximará de alcançar a Inteligência Artificial Geral (AGI),” concluiu a equipe.
📺 Aprenda mais em nosso Instagram
Aprenda Mais Sobre IA e Tecnologia
Se você está interessado em explorar mais sobre IA e entender como essa tecnologia pode transformar a sua carreira, confira nosso curso exclusivo sobre como lucrar com IA. Nele, você irá aprender através de aulas práticas e conteúdos relevantes como aplicar a inteligência artificial no seu negócio.
🚀 Aprenda a lucrar com IA:
Perguntas Frequentes (FAQ)
1. O que é o QwQ-32B?
O QwQ-32B é um modelo de inteligência artificial desenvolvido pela Alibaba com 32 bilhões de parâmetros, projetado para oferecer um desempenho avançado em raciocínio e resolução de problemas usando Aprendizado por Reforço.
2. Como posso utilizar o QwQ-32B?
O modelo pode ser utilizado em diversas aplicações, desde programação e análises matemáticas até ferramentas de inteligência artificial que se adaptam ao feedback do usuário.
3. Onde posso encontrar mais informações sobre o QwQ-32B?
Para mais detalhes, você pode acessar as plataformas Hugging Face e ModelScope, onde o modelo está disponível ao público.
Palavras-chave: QwQ-32B, aprendizado por reforço, inteligência artificial, Alibaba, DeepSeek-R1, desempenho de IA, modelos de base, raciocínio matemático, solução de problemas, curso de IA.
Se você curtiu este artigo, não esqueça de comentar abaixo, compartilhar com amigos e conferir mais conteúdos sobre tecnologia e inteligência artificial no nosso canal @canalsegredosdodigital. Há dicas exclusivas e tendências do mercado digital esperando por você!