Início TECNOLOGIA Por dentro da produção do Gemini 3 – como a abordagem lenta...

Por dentro da produção do Gemini 3 – como a abordagem lenta e constante do Google venceu a corrida da IA ​​(por enquanto)

15
0

 

 

NurPhoto / Contribuidor / NurPhoto via Getty

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Quando entrei em uma sala de conferências no prédio do Google em São Francisco na semana passada, esperava encontrar o típico briefing técnico com fileiras de cadeiras voltadas para uma parede de telas e uma voz corporativa gerenciando uma apresentação de slides.

Em vez disso, encontrei-me no que mais parecia uma terapia de grupo, com um grande círculo de cadeiras aconchegantes dispostas no centro da sala. Cerca de uma dúzia de testadores e criadores cuidadosamente selecionados, inclusive eu, sentaram-se com a equipe por trás do Gemini 3, que acabara de se tornar público, e do Nano Banana Pro, que seria lançado no dia seguinte.

Além disso: o Gemini 3 do Google finalmente chegou e é mais inteligente, rápido e de acesso gratuito

Esse cronograma de lançamento rápido não poderia ter sido mais revelador. A indústria da IA ​​está no meio de uma corrida sem precedentes, com a OpenAI, a Anthropic, a Google e outras empresas entrincheiradas numa luta constante para captar a atenção dos utilizadores e provar que os seus modelos proporcionam mais valor do que os restantes.

Com Tulsee Doshi (diretor sênior e chefe de produto da Gemini Models), Logan Kilpatrick (líder de PM do grupo da Gemini API) e Nicole Brichtova (líder de produto de imagem e vídeo) sentados à minha frente, tive uma visão fascinante das decisões, compensações e desafios por trás desses lançamentos de alto perfil.

Aqui estão três detalhes que se destacaram durante nossa conversa de 75 minutos.

Por que o Gemini 3 demorou mais que o esperado

A diferença entre a estreia do Gemini 2.5 Pro no Google I/O em maio e a chegada do Gemini 3 em novembro foi significativa, especialmente devido ao rápido ritmo de desenvolvimento da IA ​​em toda a indústria. Quando o tópico do cronograma surgiu, Doshi explicou que o atraso se resumia a uma abordagem dupla.

Do lado do pré-treinamento, a equipe estabeleceu metas ambiciosas em torno do raciocínio sobre desempenho e multimodalidade. Eles queriam “raciocínio de última geração” com “nuances e profundidade” reais. Mas o maior fator foi o trabalho pós-treinamento focado em melhorias de usabilidade, como melhor uso de ferramentas e refinamento da personalidade do modelo com base no extenso feedback obtido na versão 2.5.

A equipe aprendeu uma lição difícil com sua estratégia anterior de lançamento de modelo experimental.

Além disso: Quer abandonar o ChatGPT? Gemini 3 mostra os primeiros sinais de vitória na corrida da IA

“Tínhamos feito esse tipo de treinamento experimental de lançamento de modelo várias vezes”, disse Doshi, “e muito do feedback do público de desenvolvedores foi [that] isso causou muita agitação nas pessoas.” Os desenvolvedores acordavam todas as manhãs para descobrir coisas drasticamente diferentes. Isso exigia que testassem novos modelos experimentais do Gemini, que traziam consigo um “verdadeiro custo cognitivo e de tempo”.

Desta vez, eles adotaram uma abordagem diferente. “Passamos um ciclo de iteração muito mais longo entregando o modelo às pessoas, obtendo feedback, usando esse feedback para iterar mais nos modelos, fazendo isso algumas vezes”, explicou Doshi. As últimas semanas foram uma intensa corrida de triagem de problemas, identificando se os problemas estavam no atendimento ou no próprio modelo, e corrigindo o que podiam.

Além disso: o gerador de imagens Nano Banana do Google se torna Pro – como ele supera o original

Kilpatrick acrescentou que a coordenação de lançamentos em vários serviços do Google criou uma camada extra de complexidade. “É realmente difícil colocar todo o Google na mesma página e criar a infraestrutura para dar suporte a esse modelo para centenas de milhões de clientes”, disse ele. O objetivo era fornecer simultaneamente o aplicativo Gemini, a Pesquisa Google e o AI Studio, o que exigia muito mais coordenação do que os lançamentos anteriores.

A filosofia que orientou essas decisões foi clara: “Tentamos não ser tão orientados para os prazos quanto tentamos ser orientados para a qualidade”, observou Doshi. A equipe queria evitar o envio de um produto não polido e, essencialmente, testes e iterações em público. Em vez disso, eles optaram por fazê-lo a portas fechadas.

Gemini 3 está ajudando a construir Gemini 4

Doshi continuou dizendo: “O volume de feedback recebido foi quase maior do que poderíamos gerenciar adequadamente”.

Enquanto eu estava ali sentado, ocorreu-me que eu tinha uma noção do que poderia ser útil nesse caso, então perguntei: “Quanto você usa, se é que usa, o modelo Gemini para analisar e compreender o sucesso do modelo Gemini?” Para minha surpresa, a resposta de Doshi foi imediata: “Muito, na verdade. Tem sido realmente incrível.”

A equipe usa o Gemini extensivamente para agrupar feedback e identificar padrões do fluxo massivo de relatórios de usuários. Mas Doshi teve o cuidado de observar um equilíbrio importante. “Quero que muitas de nossas equipes desenvolvam empatia, e parte dessa empatia desaparece se você abstrair demais.” Se o Gemini abstrair totalmente o feedback, as equipes poderão perder o contato com os verdadeiros problemas que os usuários estão enfrentando. Então, eles usam o Gemini para ajudar a encontrar os padrões, mas mantêm a equipe lendo o feedback real dos usuários para que fiquem próximos de sua frustração.

Além disso: o Google acaba de lançar o Gemini 3 para Pesquisa – aqui está o que ele pode fazer e como experimentá-lo

Além de analisar o feedback, eles também estão usando o Gemini para escrever ferramentas que aceleram o processo de teste. A equipe de Kilpatrick foi ainda mais longe no lado do produto.

“Estamos codificando continuamente usando o Gemini 3, que tem sido um grande acelerador para melhorar a interface do usuário”, disse ele. Dando um grande passo adiante, Kilpatrick acrescentou: “O Gemini 4 será criado pelo Gemini 3. Talvez algumas das experiências de produto de como você interage com o Gemini 4 estejam sendo criadas agora pelo Gemini 3”.

Doshi foi rápido em acrescentar: “Não sei se iria tão longe a ponto de dizer que Gêmeos construiu Gêmeos, mas acho que é muito próximo de como pegamos todas essas peças e fazemos com que Gêmeos acelere”.

A renderização de texto finalmente funciona (principalmente)

Uma das melhorias mais impressionantes do Nano Banana Pro é algo que a IA levou muito tempo para dominar. O texto nas imagens geradas por IA parece preciso agora.

Nicole Brichtova nos mostrou exemplos de infográficos criados com instruções extremamente simples.

Ao olhar para esses exemplos na tela grande da sala, me vi examinando cada palavra, procurando sinais óbvios de texto gerado por IA, quaisquer erros ortográficos, palavras inventadas e caracteres aparentemente estranhos e sem sentido que atormentaram os modelos de geração de imagens até o momento. Para minha surpresa, este infográfico incrivelmente complexo era impecável.

A melhoria no que Brichtova chamou de “taxa de escolha seletiva” foi dramática em relação à versão anterior do Nano Banana. “Antes você tinha que gerar 10 deles e então talvez um deles realmente tivesse um texto perfeito”, disse ela. “E agora você fará 10 e talvez um ou dois deles você não possa realmente usar.”

Além disso: experimentei os novos recursos visuais do NotebookLM – dizia que fui para ‘Borkeley’

O que tornou o progresso ainda mais impressionante foi o quão sofisticados se tornaram os fracassos. Doshi mencionou ter examinado exemplos de alguns meses antes em que os erros eram óbvios, mas, mais recentemente, ela questionou se palavras aparentemente reais eram reais. “Parecia legítimo, como se não fosse engraçado nem nada – mas não, não era uma palavra real.” O modelo ficou tão bom que conseguiu criar palavras falsas convincentes que pareciam pertencer à língua inglesa.

Um testador na sala compartilhou sua experiência usando o Nano Banana Pro para gerar um infográfico a partir de um artigo de pesquisa. A primeira tentativa funcionou perfeitamente e as primeiras iterações para refiná-la correram bem. Mas na quinta rodada de edições, as coisas desmoronaram e o modelo começou a inventar palavras e até mesmo a incluir fragmentos de outras línguas.

Brichtova reconheceu isto como uma limitação conhecida. “Multi-turn é algo em que continuamos a melhorar”, disse ela. “Depois de chegar à curva três, você basicamente terá que reiniciar sua conversa. Quanto mais tempo você conversar com esse modelo, mais ele poderá desmoronar.” Ela enfatizou que é uma área na qual eles estão trabalhando ativamente, embora na geração de uma única tomada a qualidade tenha atingido um nível impressionante.

Pouco tempo para comemorar

Jason Howell renderizado por Nano Banana Pro

Um AI Jason Howell em um suéter Nano Banana Pro.

Jason Howell/ZDNET

Após 75 minutos de conversa franca, juntei-me ao grupo para algumas demonstrações práticas do Gemini 3 e do Nano Banana Pro. Um momento que se destacou para mim foi ver o Nano Banana Pro gerar imagens do meu rosto com notável precisão. Testei vários geradores de imagens, mas foi a primeira vez que tive dificuldade em distinguir a versão gerada por IA de uma foto real. A adesão às minhas características faciais reais foi perfeita, e o suéter natalino também foi um ótimo bônus.

O que mais me impressionou, porém, não foi apenas a tecnologia exibida, mas o clima na sala. Apesar do lançamento bem-sucedido do Gemini 3 no dia anterior e da óbvia empolgação em torno do lançamento do Nano Banana Pro, houve uma hesitação notável entre a equipe em comemorar muito cedo.

Dada a forma como as pessoas responderam positivamente ao Gemini 3 e ao sucesso viral do Nano Banana original, achei que o Nano Banana Pro foi um sucesso. No entanto, a equipe ainda não estava pronta para se cumprimentar. Eles queriam ver o lançamento pousar com sucesso primeiro. E mesmo assim, a comemoração seria breve, porque o ritmo alucinante do desenvolvimento da IA ​​significava que eles precisariam voltar à esteira para se preparar para o próximo lançamento.

Numa indústria em que as empresas correm para lançar o próximo grande modelo, a abordagem da Google destacou-se pela sua vontade de adiar a qualidade, iterar com base em feedback concreto e usar a sua própria IA para construir uma IA melhor. Talvez o mais revelador, porém, tenha sido testemunhar uma equipe que, mesmo depois de uma vitória importante, entendeu que havia pouco tempo para descansar.

avots