NVIDIA lança Nemotron-3 Nano 30B, novo modelo de IA

Resumo da Matéria

– NVIDIA lança novo modelo de linguagem de IA
– Inovação reside na quantidade de tokens por minuto
– NVIDIA garante que a IA é de código aberto

A NVIDIA, lançou nesta segunda-feira (15) o Nemotron-3 Nano 30B, o primeiro modelo de sua nova família Nemotron-3. O Nemotron-3 Nano 30B está focado em fluxos de trabalho multi-agentes e na utilização de ferramentas.

Dessa forma, está prometendo alta eficiência e um avanço significativo na capacidade de raciocínio de longo alcance. A principal manchete é a sua janela de contexto nativa de 1 milhão de tokens, um marco que abre novas portas para aplicações empresariais e de desenvolvimento.

Arquitetura Híbrida e Eficiência de Ponta

O Nemotron-3 Nano 30B é um modelo Mixture-of-Experts (MoE) híbrido, combinando as arquiteturas Mamba e Transformer. A arquitetura MoE permite que o modelo tenha um grande número de parâmetros totais (cerca de 30 bilhões), mas utilize apenas uma fração deles (cerca de 3 bilhões) em cada passagem (forward pass), o que resulta em uma eficiência de inferência muito superior.

A fusão com a arquitetura Mamba-Transformer é o que confere ao modelo sua velocidade e capacidade de raciocínio de longo alcance. Pois a combinação permite que o Nemotron-3 Nano 30B seja até 4 vezes mais rápido em inferência do que seu antecessor, o Nemotron Nano 2, e até 3.3 vezes mais rápido que outros modelos de tamanho similar.

A eficiência é tão notável que a NVIDIA o posiciona para ser executado em GPUs de consumo, como a linha GeForce RTX, através de ferramentas como o llama.cpp e LM Studio, além de hardware de data center como DGX Spark, H100 e B200.

O Salto do Contexto de 1 Milhão de Tokens

A janela de contexto de 1 milhão de tokens é o recurso mais impactante do Nemotron-3 Nano 30B. O context length é o número máximo de tokens (palavras ou partes de palavras) que um modelo de linguagem pode processar em uma única sequência. Uma janela de 1 milhão de tokens permite que o modelo lide com:

Grandes Bases de Código: Analisando e raciocinando sobre projetos de software inteiros;
Documentos Extensos: Processando relatórios, livros ou documentos legais sem a necessidade de quebrar o texto em partes menores (chunking);
Sessões de Agentes de Longa Duração: Mantendo a memória de conversas e tarefas complexas por períodos estendidos, o que é crucial para o desenvolvimento de agentes de IA mais sofisticados.

Essa capacidade remove barreiras críticas para a adoção de LLMs (Large Language Models) em ambientes empresariais, no qual a integridade, além da análise de grandes volumes de dados são essenciais.

O lançamento do Nemotron-3 Nano 30B, com sua licença aberta e foco em eficiência, estabelece um novo padrão de desempenho e capacidade para modelos de IA de código aberto, com a promessa de modelos ainda maiores, o Nemotron-3 Super (100B) e Ultra (500B), previstos para o primeiro semestre de 2026.

0 0 votos

Classificação do artigo