O mecanismo por trás das fábricas de IA para a era do raciocínio de IA, agora em produção total.
Explore os avanços inovadores que a arquitetura NVIDIA Blackwell traz para IA generativa e computação acelerada. Com base em gerações de tecnologias da NVIDIA, o NVIDIA Blackwell define o próximo capítulo em IA Generativa, com desempenho, eficiência e escala inigualáveis.
As GPUs com arquitetura NVIDIA Blackwell contêm 208 bilhões de transistores e são fabricadas usando um processo TSMC 4NP personalizado. Todos os produtos NVIDIA Blackwell apresentam dois chips limitados por retículos conectados por uma interconexão chip-to-chip de 10 terabytes por segundo (TB/s) em uma GPU unificada.
O Transformer Engine de segunda geração usa a tecnologia personalizada NVIDIA Blackwell Tensor Core combinada com as inovações NVIDIA TensorRT™-LLM e NeMo™ Framework para acelerar a inferência e o treinamento para grandes modelos de linguagem (LLMs) e modelos Mixture-of-Experts (MoE). Os núcleos tensores NVIDIA Blackwell adicionam novas precisões, incluindo novos formatos de microescalabilidade definidos pela comunidade, oferecendo alta precisão e facilidade de substituição por precisões maiores.
Os núcleos tensores NVIDIA Blackwell Ultra são turbinados com o dobro da aceleração na camada de atenção e 1,5 vezes mais FLOPS de computação de IA em comparação com as GPUs NVIDIA Blackwell. O NVIDIA Blackwell Transformer Engine utiliza técnicas de escalabilidade de fine-grain, chamadas "escalabilidade de microtensores", para otimizar o desempenho e a precisão, permitindo IA de ponto flutuante de 4 bits (FP4). Essa tecnologia dobra o desempenho e o tamanho dos modelos de última geração que a memória pode suportar, mantendo a alta precisão.
O NVIDIA Blackwell inclui computação confidencial da NVIDIA, que protege dados confidenciais e modelos de IA contra acesso não autorizado, com segurança forte baseada em hardware. O NVIDIA Blackwell é a primeira GPU com capacidade para TEE-I/O do setor, fornecendo a solução de computação confidencial de mais alto desempenho com hosts compatíveis com TEE-I/O e proteção in-line no NVIDIA NVLink™. A computação confidencial NVIDIA Blackwell oferece desempenho de taxa de transferência quase idêntica em comparação com os modos não criptografados. As empresas agora podem proteger até os maiores modelos de forma eficiente, além de proteger a propriedade intelectual (IP) de IA e permitir com segurança o treinamento de IA, a inferência e a aprendizagem federada.
O desbloqueio de todo o potencial da computação em exaescala, e dos modelos de IA de trilhões de parâmetros, depende de comunicação rápida e perfeita entre todas as GPUs em um cluster de servidores. A interconexão NVIDIA NVLink de quinta geração pode escalar até 576 GPUs para liberar desempenho acelerado para modelos de IA com trilhões e multitrilhões de parâmetros.
O chip Switch NVIDIA NVLink permite 130 TB/s de largura de banda de GPU em um domínio NVLink de 72 GPUs (NVL72) e oferece eficiência quatro vezes maior de largura de banda, com suporte ao NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ FP8. O chip Switch NVIDIA NVLink é compatível com clusters, além de um único servidor, com a mesma interconexão impressionante de 1,8 TB/s. Clusters de vários servidores com NVLink dimensionam as comunicações de GPU proporcionalmente ao aumento da capacidade de computação. Assim, o NVL72 pode suportar 9 vezes a taxa de transferência de GPU do que um único sistema de oito GPUs.
Os workflows de análise de dados e banco de dados tradicionalmente dependiam de CPUs para computação. A ciência de dados acelerada pode aumentar significativamente o desempenho da análise end-to-end, acelerando a geração de valor e reduzindo os custos. Os bancos de dados, incluindo o Apache Spark, desempenham papéis críticos no manuseio, processamento e análise de grandes volumes de dados para análise.
O mecanismo de descompactação do NVIDIA Blackwell e a capacidade de acessar grandes quantidades de memória na CPU NVIDIA Grace™ por meio de um link de alta velocidade, com 900 gigabytes por segundo (GB/s) de largura de banda bidirecional, aceleram todo o pipeline de consultas de banco de dados para o mais alto desempenho em análise e ciência de dados, com suporte para os formatos de compactação mais recentes, como LZ4, Snappy e Deflate.
O NVIDIA Blackwell adiciona resiliência inteligente com um mecanismo dedicado de confiabilidade, disponibilidade e capacidade de manutenção (RAS) para identificar possíveis falhas que podem ocorrer no início para minimizar o tempo de inatividade. Os recursos de gerenciamento preditivo com IA da NVIDIA monitoram continuamente milhares de pontos de dados em hardware e software para saúde geral, para prever e interceptar fontes de tempo de inatividade e ineficiência. Isso cria resiliência inteligente que economiza tempo, energia e custos de computação.
O RAS Engine da NVIDIA fornece informações de diagnóstico detalhadas que podem identificar áreas de preocupação e planejar manutenção. O mecanismo RAS reduz o tempo de resposta, localizando rapidamente a fonte dos problemas, e minimiza o tempo de inatividade, facilitando a remediação eficaz.
Saiba como a nova quantização de 4 bits NVFP4 da NVIDIA para pré-treinamento possibilita grandes melhorias no treinamento de LLMs em escala e na eficiência geral da infraestrutura.