Início TECNOLOGIA Kimi K2 Thinking da Moonshot emerge como líder em IA de código...

Kimi K2 Thinking da Moonshot emerge como líder em IA de código aberto, superando GPT-5, Claude Sonnet 4.5 nos principais benchmarks

44
0

Mesmo como preocupação e ceticismo cresce com a estratégia de desenvolvimento e os altos compromissos de gastos da startup americana de IA OpenAI, os provedores chineses de IA de código aberto estão aumentando sua concorrência e um deles até alcançou o carro-chefe da OpenAI, o modelo proprietário pago GPT-5, nos principais benchmarks de desempenho de terceiros com um modelo novo e gratuito.

A startup chinesa de IA Novo modelo Kimi K2 Thinking da Moonshot AIlançado hoje, ultrapassou concorrentes proprietários e de peso aberto para reivindicar a posição de liderança em benchmarks de raciocínio, codificação e ferramentas de agente.

Apesar de ser totalmente de código aberto, o modelo agora supera o GPT-5 da OpenAI, o Claude Sonnet 4.5 da Anthropic (modo de pensamento) e o Grok-4 da xAI em várias avaliações padrão – um ponto de inflexão para a competitividade dos sistemas abertos de IA.

Os desenvolvedores podem acessar o modelo via plataforma.moonshot.ai e kimi. com; pesos e código estão hospedados em Abraçando o rosto. A versão aberta inclui APIs para chat, raciocínio e fluxos de trabalho com várias ferramentas.

Os usuários podem experimentar o Kimi K2 Thinking diretamente por meio de seu próprio Concorrente de site semelhante ao ChatGPT e assim por diante um espaço Hugging Face também.

Licença de código aberto padrão modificada

Moonshot AI lançou formalmente Kimi K2 Thinking sob um Licença MIT modificada no rosto abraçado.

A licença concede direitos comerciais e derivados totais – o que significa que investigadores e desenvolvedores individuais que trabalham em nome de clientes empresariais podem aceder-lhe livremente e utilizá-lo em aplicações comerciais – mas acrescenta uma restrição:

“Se o software ou qualquer produto derivado servir mais de 100 milhões de usuários ativos mensais ou gera mais de US$ 20 milhões por mês em receita, o implementador deve exibir ‘Kimi K2’ em destaque na interface do usuário do produto.”

Para a maioria das aplicações empresariais e de pesquisa, esta cláusula funciona como um requisito de atribuição leve, preservando ao mesmo tempo as liberdades do licenciamento padrão do MIT.

Isso torna o K2 Thinking um dos modelos de classe de fronteira mais licenciados atualmente disponíveis.

Um novo líder de referência

Kimi K2 Thinking é um modelo de mistura de especialistas (MoE) construído em torno de um trilhão de parâmetros, dos quais 32 bilhões são ativados por inferência.

Ele combina o raciocínio de longo horizonte com o uso estruturado de ferramentas, executando de 200 a 300 chamadas de ferramentas sequenciais sem intervenção humana.

De acordo com os resultados dos testes publicados pela Moonshot, o K2 Thinking alcançou:

  • 44,9% sobre Último Exame da Humanidade (HLE)uma pontuação de última geração;
  • 60,2% sobre BrowseCompum teste de raciocínio e pesquisa na web agente;
  • 71,3% sobre SWE-Bench verificado e 83,1% sobre LiveCodeBench v6avaliações de codificação chave;
  • 56,3% sobre Selo-0uma referência para recuperação de informações do mundo real.

Nessas tarefas, o K2 Thinking supera consistentemente as pontuações correspondentes do GPT-5 e supera o anterior líder de peso aberto MiniMax-M2 – lançado apenas algumas semanas antes pelo rival chinês MiniMax AI.

Modelo aberto supera sistemas proprietários

GPT-5 e Claude Sonnet 4.5 Thinking continuam sendo os principais modelos proprietários de “pensamento”.

No entanto, no mesmo conjunto de benchmarks, As pontuações de raciocínio agente do K2 Thinking excedem ambos: por exemplo, no BrowseComp os 60,2% do modelo aberto lideram decisivamente os 54,9% do GPT-5 e os 24,1% do Claude 4.5.

K2 Thinking também supera GPT-5 em Diamante GPQA (85,7% vs 84,5%) e corresponde em tarefas de raciocínio matemático, como AIME 2025 e HMMT 2025.

Somente em certas configurações de modo pesado – onde o GPT-5 agrega múltiplas trajetórias – o modelo proprietário recupera a paridade.

O fato de o lançamento totalmente aberto do Moonshot poder atingir ou exceder as pontuações do GPT-5 marca um ponto de viragem. A lacuna entre os sistemas de fronteiras fechadas e os modelos disponíveis publicamente entrou em colapso para o raciocínio e a codificação de ponta.

Superando o MiniMax-M2: o benchmark anterior de código aberto

Quando VentureBeat traçou o perfil do MiniMax-M2 há apenas uma semana e meia, ele foi aclamado como o “novo rei dos LLMs de código aberto”, alcançando as melhores pontuações entre os sistemas de peso aberto:

  • τ²-Banco 77.2
  • BrowseComp 44.0
  • FinSearchComp-global 65.5
  • SWE-Bench verificado 69,4

Esses resultados colocaram o MiniMax-M2 próximo da capacidade do nível GPT-5 no uso de ferramentas de agente. Ainda Kimi K2 Thinking agora os eclipsa por amplas margens.

Seu resultado do BrowseComp de 60,2% excede os 44,0% do M2, e seus 71,3% verificados pelo SWE-Bench superam os 69,4% do M2. Mesmo em tarefas de raciocínio financeiro, como FinSearchComp-T3 (47,4%), o K2 Thinking tem um desempenho comparável, mantendo um raciocínio de uso geral superior.

Tecnicamente, ambos os modelos adotam arquiteturas esparsas de mistura de especialistas para eficiência computacional, mas a rede do Moonshot ativa mais especialistas e implanta treinamento avançado com reconhecimento de quantização (INT4 QAT).

Esse design dobra a velocidade de inferência em relação à precisão padrão sem degradar a precisão – fundamental para longas sessões de “token de pensamento” que atingem janelas de contexto de 256 mil.

Raciocínio Agente e Uso de Ferramentas

A capacidade definidora do K2 Thinking reside no seu traço de raciocínio explícito. O modelo gera um campo auxiliar, reasoning_content, revelando uma lógica intermediária antes de cada resposta final. Essa transparência preserva a coerência em tarefas longas de múltiplas voltas e chamadas de ferramentas em várias etapas.

Uma implementação de referência publicada pela Moonshot demonstra como o modelo conduz autonomamente um fluxo de trabalho de “reportagem de notícias diárias”: invocando ferramentas de data e pesquisa na web, analisando o conteúdo recuperado e compondo resultados estruturados – tudo isso enquanto mantém o estado de raciocínio interno.

Esta autonomia de ponta a ponta permite que o modelo planeje, pesquise, execute e sintetize evidências em centenas de etapas, refletindo a classe emergente de sistemas de “IA agentica” que operam com supervisão mínima.

Eficiência e Acesso

Apesar de sua escala de trilhões de parâmetros, o custo de tempo de execução do K2 Thinking permanece modesto. Moonshot lista o uso em:

  • $ 0,15 / 1 milhão de tokens (acerto no cache)
  • US$ 0,60 / 1 milhão de tokens (perda de cache)
  • Produção de US$ 2,50/1 milhão de tokens

Essas taxas são competitivas mesmo em relação ao preço de entrada de US$ 0,30/saída de US$ 1,20 do MiniMax-M2 – e uma ordem de magnitude abaixo do GPT-5 (entrada de US$ 1,25/saída de US$ 10).

Contexto Comparativo: Aceleração de Peso Aberto

A rápida sucessão do pensamento M2 e K2 ilustra a rapidez com que a pesquisa de código aberto está alcançando sistemas de fronteira. O MiniMax-M2 demonstrou que os modelos abertos poderiam se aproximar da capacidade de agente da classe GPT-5 por uma fração do custo de computação. Moonshot avançou ainda mais essa fronteira, empurrando os pesos abertos além da paridade para a liderança absoluta.

Ambos os modelos dependem de ativação esparsa para eficiência, mas a maior contagem de ativação do K2 Thinking (parâmetros ativos de 32 B vs 10 B) produz maior fidelidade de raciocínio entre domínios. Seu escalonamento no tempo de teste – expandindo “tokens de pensamento” e turnos de chamada de ferramentas – fornece ganhos de desempenho mensuráveis ​​sem retreinamento, um recurso ainda não observado no MiniMax-M2.

Perspectiva Técnica

Moonshot relata que K2 Thinking suporta inferência INT4 nativa e 256 contextos de k-token com degradação mínima de desempenho. Sua arquitetura integra quantização, agregação de trajetória paralela (“modo pesado”) e roteamento de mistura de especialistas ajustado para tarefas de raciocínio.

Na prática, essas otimizações permitem que o K2 Thinking sustente ciclos de planejamento complexos – compilação de código – teste – correção, pesquisa – análise – resumo – ao longo de centenas de chamadas de ferramentas. Esta capacidade sustenta seus resultados superiores no BrowseComp e no SWE-Bench, onde a continuidade do raciocínio é decisiva.

Implicações enormes para o ecossistema de IA

A convergência de modelos abertos e fechados de ponta sinaliza uma mudança estrutural no cenário da IA. As empresas que antes dependiam exclusivamente de APIs proprietárias agora podem implantar alternativas abertas que correspondam ao raciocínio do nível GPT-5, mantendo o controle total de pesos, dados e conformidade.

A estratégia de publicação aberta da Moonshot segue o precedente estabelecido por DeepSeek R1, Qwen3, GLM-4.6 e MiniMax-M2, mas estende-o ao raciocínio de agência completo.

Para desenvolvedores acadêmicos e empresariais, o K2 Thinking oferece transparência e interoperabilidade – a capacidade de inspecionar rastros de raciocínio e ajustar o desempenho para agentes específicos de domínio.

A chegada do K2 Thinking sinaliza que Moonshot – um jovem startup fundada em 2023 com investimento de algumas das maiores empresas de aplicativos e tecnologia da China — está aqui para participar de uma competição cada vez mais intensa e surge em meio a um escrutínio crescente da sustentabilidade financeira dos maiores participantes da IA.

Apenas um dia atrás, a CFO da OpenAI, Sarah Friar, gerou polêmica depois sugerindo no WSJ Tech Live caso o governo dos EUA possa eventualmente precisar de fornecer um “backstop” para os mais de 1,4 biliões de dólares em compromissos de computação e centros de dados da empresa – um comentário amplamente interpretado como um apelo a garantias de empréstimos apoiadas pelos contribuintes.

Embora Mais tarde, Friar esclareceu que OpenAI não procurava apoio federal direto, o episódio reacendeu o debate sobre a escala e a concentração das despesas de capital em IA.

Com OpenAI, Microsoft, Meta e Google correndo para garantir o fornecimento de chips de longo prazo, os críticos alertam sobre uma bolha de investimento insustentável e uma “corrida armamentista de IA” impulsionada mais pelo medo estratégico do que pelos retornos comerciais – uma que poderia “explodir” e derrubar toda a economia global se houver hesitação ou incerteza do mercado, já que tantas negociações e avaliações foram feitas agora em antecipação à continuação de investimentos pesados ​​em IA e retornos massivos.

Contra esse pano de fundo, os lançamentos de peso aberto da Moonshot AI e MiniMax colocaram mais pressão sobre as empresas de IA proprietárias dos EUA e seus patrocinadores para justificar o tamanho dos investimentos e os caminhos para a lucratividade.

Se um cliente corporativo pode facilmente obter desempenho comparável ou melhor com um modelo de IA chinês gratuito e de código aberto do que com soluções de IA proprietárias pagas, como GPT-5 da OpenAI, Claude Sonnet 4.5 da Anthropic ou Gemini 2.5 Pro do Google – por que eles continuariam pagando para acessar os modelos proprietários? Empresas do Vale do Silício como o Airbnb já levantaram sobrancelhas por admitirem usando alternativas chinesas de código aberto, como Qwen do Alibaba, em vez de ofertas proprietárias da OpenAI.

Para investidores e empresas, estes desenvolvimentos sugerem que a capacidade de IA de ponta já não é sinónimo de despesas de capital de ponta. Os sistemas de raciocínio mais avançados podem agora vir não de empresas que constroem data centers em gigaescala, mas de grupos de pesquisa que otimizam arquiteturas e quantização para obter eficiência.

Nesse sentido, o domínio do benchmark K2 Thinking não é apenas um marco técnico – é estratégico, chegando a um momento em que a maior questão do mercado de IA mudou de quão poderosos os modelos podem se tornar para quem pode se dar ao luxo de sustentá-los.

O que isso significa para as empresas daqui para frente

Poucas semanas após a ascensão do MiniMax-M2, o Kimi K2 Thinking o ultrapassou – junto com o GPT-5 e o Claude 4.5 – em quase todos os benchmarks de raciocínio e de agência.

O modelo demonstra que os sistemas de peso aberto podem agora atendem ou superam modelos de fronteira proprietários tanto em capacidade quanto em eficiência.

Para a comunidade de investigação em IA, o K2 Thinking representa mais do que outro modelo aberto: é uma prova de que a fronteira se tornou colaborativa.

O modelo de raciocínio com melhor desempenho disponível hoje não é um produto comercial fechado, mas um sistema de código aberto acessível a qualquer pessoa.

avots