O Gemini 3, a mais nova geração de inteligência artificial do Google, chegou com uma promessa ousada: a capacidade de processar texto, imagem, áudio e vídeo de forma totalmente integrada, pensando e agindo de maneira mais autônoma. O chatbot está disponível gratuitamente na versão básica (via app Gemini Google e web), com recursos avançados para assinantes do Gemini Advanced. Para avaliar se o novo modelo cumpre o prometido, o portal TechTudo realizou uma série de testes práticos, abrangendo raciocínio profundo, codificação, análise de vídeos e capacidade de cruzar informações.

Domínio no raciocínio e na lógica

O Gemini 3 introduziu um modo de “Raciocínio” mais aprofundado, similar a uma reflexão antes de responder. O objetivo é que o modelo elabore um planejamento para lidar melhor com perguntas complexas.

Ao submeter a IA a um problema de lógica desafiador, o Gemini 3 demonstrou prontidão e consistência. O chatbot resolveu o enigma corretamente na primeira tentativa e conseguiu manter a mesma linha de raciocínio ao receber uma variação do teste, apresentando resultados consistentes e sem criar informações falsas (alucinações) nos passos intermediários.

Codificação e capacidade de agente autônomo

O Google destacou que o Gemini 3 é superior em “Vibe Coding” — a capacidade de entender a intenção por trás de um código sem especificações detalhadas — e na capacidade agêntica, que permite à IA tomar iniciativas para executar tarefas.

Para testar isso, foi solicitado ao Gemini 3 que criasse o clássico jogo da cobrinha com uma estética neon inspirada no Cyberpunk 2077. O chatbot entregou o código completo (HTML5, CSS e JavaScript), que funcionou perfeitamente logo na primeira execução, incorporando todos os detalhes estéticos e funcionais pedidos no prompt.

Multimodalidade e atenção ao detalhe

A capacidade de analisar vídeo e áudio de forma nativa e precisa foi testada com o desafio da “Agulha no Palheiro”. Este teste avalia se o modelo consegue encontrar um detalhe extremamente específico em um conteúdo longo, como o momento exato em que uma fala acontece.

Ao receber um vídeo de até cinco minutos e o comando para localizar o instante exato de uma fala específica, o Gemini 3 retornou o timecode correto, indicando o minuto exato da ocorrência, e ainda se ofereceu para transcrever todo o diálogo.

Grounding e análise de contexto longo

Um dos pontos mais importantes é a capacidade do Gemini 3 de evitar alucinações ao citar fontes externas (grounding). Em um teste com informações externas, a IA buscou dados atualizados sobre o software Blender e listou três mudanças técnicas relacionadas à renderização, apoiando-se unicamente na fonte oficial do serviço. A busca foi delimitada entre os dias 19 e 23 de novembro.

Já para o teste de contexto longo, foi anexado o Regulamento Geral de Competições da CBF de 2025. O desafio era que a IA cruzasse informações de capítulos distintos: a penalidade no Capítulo 9 para um clube que escalasse um jogador irregular (Capítulo 8). O chatbot do Google correlacionou os dados de forma correta e definitiva.

Criatividade na geração de imagens

Outra novidade é o Nano Banana, o gerador de imagens do Gemini 3, aprimorado para inserir textos claros e bem escritos diretamente nas imagens. O teste pedia a criação de uma imagem realista de uma cafeteria em Tóquio, com um letreiro de neon escrito “GEMINI 3 LIVE” na vitrine, e com o reflexo do neon aparecendo em uma poça d’água na calçada. O resultado foi entregue com precisão, confirmando a nova capacidade.

A partir dos testes em cenários de raciocínio, codificação, análise multimodal e atenção ao detalhe, o TechTudo confirmou que o Gemini 3 se saiu bem e conseguiu apresentar os resultados esperados em todos os desafios propostos.

Compartilhar.

Jornalista com registro no MT desde 2022, atuando na área desde 2019. Produtor de eventos desde 1998 e desenvolvedor web desde 2007, com foco em WordPress e conteúdo digital. No Pista Livre, é responsável pela criação, edição e estratégia dos conteúdos.