Por dentro da arquitetura Turing da NVIDIA

Índice

Introdução

No dia 20 de agosto de 2018, em um evento em Colônia, na Alemanha, a NVIDIA anunciou sua nova geração de placas de vídeo, que utiliza uma nova arquitetura batizada de Turing. Foram anunciadas três placas de vídeo baseadas nesta nova arquitetura: a GeForce RTX 2070, a GeForce RTX 2080 e a GeForce RTX 2080 Ti. Vamos ver quais as principais novidades desta nova geração.

O bloco base dos novos chips gráficos é o "Streaming Multiprocessor", ou simplesmente SM. Cada SM tem 64 núcleos CUDA FP32 (ponto flutuante com precisão de 32 bits) e 64 núcleos INT32 (inteiros de 32 bits), oito núcleos Tensor (falaremos sobre eles mais adiante) e um núcleo RT (dedicado a traçado de raios). Cada SM é dividido em quatro blocos, cada um deles com um cache de instruções L0 e 64 KiB de registradores, e traz um cache L1 de 96 kiB compartilhado entre os quatro blocos.

Figura 1: diagrama de um bloco SM Turing

Os novos chips gráficos baseados na arquitetura Turing são o TU102 (utilizado na GeForce RTX 2080 Ti, na Quadro RTX 6000 e na Quadro RTX 8000), que tem 72 SMs e acesso à memória em 384 bits, o TU 104 (utilizado na GeForce RTX 2080 e na Quadro RTX 5000), que tem 48 SMs e acesso à memória em 256 bits, e o TU106, utilizado na GeForce RTX 2070, que 36 SMs e acesso à memória em 256 bits. O TDP máximo destes chips é de 260 W (TU102), 230 W (TU104) e 185 W (TU106).

Na GeForce RTX 2080 Ti, há apenas 68 SMs habilitados, o que resulta em 4.352 núcleos CUDA ativos. O chip TU102 "completo" só é utilizado na Quadro RTX 6000 e na Quadro RTX 8000, com 4.608 núcleos CUDA (72 SMs, com 64 núcleos CUDA por SM). A interface de memória na GeForce RTX 2080 Ti também é reduzida em relação ao suportado pelo chip gráfico: 352 bits. Já a GeForce RTX 2080 utiliza o chip TU104 com 46 SMs habilitados (2.944 núcleos CUDA), enquanto os 48 SMs estão disponíveis na Quadro RTX 5000 (totalizando 3.072 núcleos CUDA). Já a GeForce RTX 2070 é baseada em um chip TU106 completo (com 2.304 núcleos CUDA).

O processo de fabricação foi aprimorado: a geração anterior era fabricada em 16 nm, enquanto os chips Turing são fabricados em 12 nm FFN (FinFET).

Figura 2: diagrama do TU102

Em relação ao cache de memória L2, o TU102 traz 6 MiB (o GP102, utilizado na GeForce GTX 1080 Ti, trazia 3 MiB) enquanto o TU104 e o TU106 têm 4 MiB. Uma das novidades da arquitetura Turing é a capacidade de executar instruções de inteiros e de ponto flutuante simultaneamente, o que segundo a NVIDIA traz um aumento de até 50% de desempenho sobre as gerações anteriores. Além disso, a nova arquitetura de cache L1 compartilhado, com mais capacidade, o dobro da largura de banda e latência mais baixa, aliado ao cache L2 com o dobro de capacidade, também proporcionam um aumento de desempenho em relação à geração anterior. Também foi implementado um sistema de compressão de dados na memória, o que ajuda na otimização da largura de banda, aumentando o desempenho.

Outra novidade é o uso das novas memórias GDDR6 de 14 GHz. A geração anterior (Pascal) utilizava memórias GDDR5 e GDDR5X, que atingiam respectivamente 8 GHz e 11 GHz. Assim, a largura de banda de memória aumentou de 256 GB/s (GeForce GTX 1070), 320 GB/s (GeForce GTX 1080) e 484 GB/s (GeForce GTX 1080 Ti) para 448 GB/s na GeForce RTX 2070 e 2080, e 616 GB/s na GeForce RTX 2080 Ti.

A arquitetura Turing também suporta conexões USB tipo C e VirtualLink, ambas voltadas a dispositivos de realidade virtual, fornecendo em um mesmo conector o sinal de vídeo para as duas telas no headset, USB para controle de posição e direção, e alimentação para o sistema.

Outro ponto que evoluiu foi o conector utilizado para sistemas SLI (uso de mais de uma placa de vídeo em paralelo para gerar uma taxa de quadros mais alta). As gerações anteriores utilizavam uma ponte SLI ou uma ponte SLI HB para interligar as placas de vídeo; já a nova geração traz um conector diferente, chamado de NVLink. Este conector oferece uma largura de banda bem mais alta, o que permite a utilização de resoluções mais altas. O chip TU102 oferece dois canais NVLink de 25 GB/s, enquanto o TU104 tem um canal NVLink de 25 GB/s. O chip TU106 não oferece suporte a SLI. Na geração Turing há suporte a SLI com apenas duas placas de vídeo: SLI com três ou quatro placas de vídeo não é mais suportado.

Nas próximas páginas falaremos sobre duas tecnologias inovadoras desta geração: núcleos Tensor e núcleos RT.