Se han revelado detalles sobre la GPU NVIDIA Ada Lovelace Gaming que impulsará las tarjetas gráficas de la serie GeForce RTX 40. La nueva información proviene de Kopte7kimi y habla sobre el diagrama de bloques de la arquitectura de próxima generación.
Diagrama de bloques detallado de NVIDIA GeForce Ada Lovelace GPU SM: ¡más grande y mejor que nunca para los jugadores!
La arquitectura de la GPU NVIDIA Ada Lovelace ya no es un misterio. Aprendimos sobre las configuraciones específicas que impulsarán la próxima generación de AD10 * SKU para las tarjetas gráficas de la serie GeForce RTX 40, y también vimos algunas especificaciones filtradas de la gama. Ahora es el momento de hablar sobre el chip gráfico de próxima generación.
Diagrama de bloques de la GPU para juegos NVIDIA AD102 «Ada Lovelace» «SM» (Créditos de la imagen: Kopite7kimi):
Diagrama de bloques de la GPU para juegos NVIDIA GA102 ‘Ampere’ ‘SM’:
Comenzando con la configuración de la GPU, Kopite7kimi compara la mejor GPU AD102 con otras GPU del equipo verde. Estos incluyen el Ampere GA102 y Turing TU102 enfocados en juegos, mientras que los Hoppers GH100 y Ampere GA100 enfocados en HPC también se han agregado a la lista. Solo compararé el AD102 con sus predecesores de juegos, ya que los diseños centrados en HPC son muy diferentes de las ofertas centradas en el consumidor.
La GPU NVIDIA Ada Lovelace AD102 incluirá hasta 12 GPC (clusters de procesamiento de gráficos). Este es un aumento del 70 % con respecto al GA102, que solo cuenta con 7 GPC. Cada GPU constará de 6 TPC y 2 SM, que es la misma configuración que el chip existente. Cada SM (multiprocesador de transmisión) albergará cuatro subnúcleos, que también es lo mismo que la GPU GA102. Lo que ha cambiado es la configuración del kernel FP32 e INT32. Cada subnúcleo constará de 128 unidades FP32, pero las unidades FP32 + INT32 combinadas aumentarán a 192. Esto se debe a que las unidades FP32 no comparten el mismo subnúcleo que las unidades IN32. Los 128 núcleos FP32 están separados de los 64 núcleos INT32.
Entonces, en total, cada subnúcleo constará de 128 unidades FP32 más 64 unidades INT32 para un total de 192 unidades. Cada SM tendrá un total de 512 unidades FP32 más 256 unidades INT32 para un total de 768 unidades. Y dado que hay un total de 24 unidades SM (2 por GPC), estamos viendo 12,288 unidades FP32 y 6,144 unidades INT32 para un total de 18,432 núcleos. Cada SM también incluirá dos programas de envoltura (32 subprocesos/CLK) para 64 envolturas por SM. Este es un aumento del 50 % en los núcleos (FP32 + INT32) y del 33 % en el ajuste/hilo en comparación con la GPU GA102.
Especificaciones «preliminares» de GPU NVIDIA Ada Lovelace:
nombre de la GPU | AD102 | GA102 | TU102 | GA100 | GH100 |
---|---|---|---|---|---|
PCG | 12 (para GPU) | 1.7x | 2x | 1.5x | 1.5x |
TPC | 6 (a través de GPC) | semilla | semilla | 0.75x | 0.67x |
SM | 2 (para TPC) | semilla | semilla | semilla | semilla |
sub-núcleo | 4 (a través de SMS) | semilla | semilla | semilla | semilla |
FP32 | 128 (a través de SMS) | semilla | 2x | 2x | semilla |
FP32 + INT32 | 192 (a través de SMS) | 1.5x | 1.5x | 1.5x | semilla |
deformado | 64 (a través de SMS) | 1.33x | 2x | semilla | semilla |
hijo | 2048 (a través de SMS) | 1.33x | 2x | semilla | semilla |
caché L1 | 192 KB (para SM) | 1.5x | 2x | semilla | 0.75x |
caché L2 | 96 MB (por GPU) | 16x | 16x | 2.4x | 1,6x |
Redox | 32 (a través de GPC) | 2x | 2x | 2x | 2x |
Pasando al caché, este es otro segmento en el que NVIDIA ha dado un gran impulso a las GPU Ampere existentes. Las GPU Ada Lovelace contarán con 192 KB de caché L1 por SM, un aumento del 50 % con respecto a Ampere. Esto equivale a un total de 4,5 MB de caché L1 en la mejor GPU AD102. El caché L2 se incrementará a 96 MB como se menciona en las filtraciones. Este es un aumento de 16 veces con respecto a la GPU Ampere, que alberga solo 6 MB de caché L2. El caché se compartirá en la GPU.
Finalmente, tenemos los ROP que también aumentan a 32 por GPC, un aumento de 2x sobre Ampere. Está viendo hasta 384 ROP en el buque insignia de próxima generación en comparación con solo 112 en el GPU Ampere más rápido, el RTX 3090 Ti. También habrá los últimos núcleos Tensor de cuarta generación y RT (trazado de rayos) de tercera generación infundidos en las GPU Ada Lovelace que ayudarán a llevar el rendimiento de DLSS y Raytracing al siguiente nivel. En general, la GPU Ada Lovelace AD102 ofrecerá:
- 2x GPC (frente a amperios)
- 50 % más de núcleos (en comparación con los amplificadores)
- 50% más de caché L1 (en comparación con el amplificador)
- 16 veces más caché L2 (en comparación con el amplificador)
- Duplicar las ROP (en comparación con el amplificador)
- Tensor de cuarta generación y núcleo RT de tercera generación
Tenga en cuenta que las velocidades de reloj, que estarían entre 2 y 3 GHz, no se consideran en la ecuación, por lo que también jugarán un papel importante en la mejora del rendimiento por núcleo en Ampere. Se espera que las tarjetas gráficas de la serie NVIDIA GeForce RTX 40 con GPU para juegos Ada Lovelace de próxima generación se lancen en la segunda mitad de 2022 y utilizarán el mismo nodo de proceso TSMC 4N que la GPU Hopper H100.
Vista previa de la GPU NVIDIA CUDA (RUMOR):
GPU | TU102 | GA102 | AD102 |
---|---|---|---|
SKU insignia | RTX-2080Ti | RTX-3090Ti | RTX4090? |
Arquitectura | turing | amperio | ada lovelace |
Procesos | NFF de 12nm de TSMC | Samsung 8nm | ¿TSMC 4N? |
La dimensión | 754 mm2 | 628 mm2 | ~ 600 mm2 |
Clúster de procesamiento de gráficos (GPC) | 6 | 7 | 12 |
Clúster de procesamiento de texturas (TPC) | 36 | 42 | 72 |
Multiprocesadores de transmisión (SM) | 72 | 84 | 144 |
Núcleos CUDA | 4608 | 10752 | 18432 |
caché L2 | 6MB | 6MB | 96 MB |
TFLOP teóricos | 16 TFLOP | 40 TFLOP | ~ 90 TFLOP? |
Tipo de memoria | GDDR6 | GDDR6X | GDDR6X |
Capacidad de memoria | 11 GB (2080 Ti) | 24 GB (3090 Ti) | 24 GB (¿4090?) |
velocidad de la memoria | 14 Gb/s | 21 Gb/s | 24 Gb/s? |
Banda de memoria | 616GB/s | 1008GB/s | 1152GB/s |
bus de memoria | 384 bits | 384 bits | 384 bits |
interfaz PCIe | PCIe generación 3.0 | PCIe generación 4.0 | PCIe generación 4.0 |
TGP | 250W | 350W | 600W? |
Liberar | septiembre 2018 | 20 de septiembre | 2S 2022 (por confirmar) |