Qwen3 235B: Alibaba entra na corrida dos modelos raciocínio

O Alibaba Group lançou o Qwen3-235B, seu mais ambicioso modelo de linguagem até o momento, posicionando-se diretamente na disputa pelos modelos de raciocínio de ponta — ao lado de Claude 3.7, GPT-o3 e DeepSeek R2.

Arquitetura

O Qwen3-235B utiliza arquitetura Mixture-of-Experts com 235B parâmetros totais e 22B ativos por inferência. O modelo foi treinado com 18 trilhões de tokens em 119 idiomas, com ênfase especial em código (Python, C++, Java, Rust) e matemática.

Benchmarks

Disponibilidade

O modelo está disponível no HuggingFace em formato BF16 e quantizações Q4/Q8. Para rodar localmente, é necessário ao menos 2x A100 80GB. Via API, a Alibaba cobra $0,20 por milhão de tokens de entrada.

Destaque: modo de raciocínio

Uma novidade interessante é o "thinking mode" ativável por instrução de sistema — o modelo expõe sua cadeia de raciocínio de forma estruturada, similar ao o1, mas com a vantagem de ser configurável por prompt.