El acelerador PCIe H100 de 80 GB recientemente anunciado por NVIDIA, basado en la arquitectura Hopper GPU, salió a la venta en Japón. Este es el segundo acelerador listado con su precio en el mercado japonés, el primero es el AMD MI210 PCIe, también listado hace solo unos días.
Acelerador PCIe NVIDIA H100 de 80 GB con GPU Hopper listado en Japón por un precio increíble de más de $ 30,000
A diferencia de la configuración H100 SXM5, el H100 PCIe ofrece especificaciones reducidas, con 114 SM habilitados en los 144 SM completos con la GPU GH100 y 132 SM en el H100 SXM. El chip como tal ofrece 3200 FP8, 1600 TF16, 800 FP32 y 48 TFLOP de potencia informática FP64. También cuenta con 456 unidades de tensor y textura.
Debido a su potencia informática máxima más baja, se espera que el H100 PCIe funcione a relojes más bajos y, como tal, presenta un TDP de 350 W en comparación con el doble TDP de 700 W de la variante SXM5. Pero la tarjeta PCIe mantendrá sus 80 GB de memoria en una interfaz de bus de 5120 bits pero en la variante HBM2e (> 2 TB/s de ancho de banda).
Según gdm-or-jp, una empresa de distribución japonesa, gdep-co-jp, ha incluido en la lista el acelerador PCIe NVIDIA H100 de 80 GB con un precio de etiqueta de 4.313.000 (US$ 33.120) y un costo total de 4.745.950, IVA incluido que convierte a $ 36.445. NOSOTROS. Se espera que el acelerador se envíe en la segunda mitad de 2022 y estará disponible en la variante estándar de doble ranura con refrigeración pasiva. También se afirma que el distribuidor proporcionará puentes NVLINK gratuitos a quienes compren varias tarjetas, pero podrán enviarlas más adelante.
Ahora, en comparación con el AMD Instinct MI210 que cuesta alrededor de $ 16,500 en el mismo mercado, el NVIDIA H100 cuesta más del doble. La oferta de NVIDIA cuenta con un rendimiento de GPU muy alto en comparación con el acelerador AMD HPC de 50 W más alto. Los TFLOP FP32 sin tensor para el H100 tienen una potencia nominal de 48 TFLOP, mientras que el MI210 tiene una potencia informática FP32 nominal máxima de 45,3 TFLOP. Con operaciones Sparsity y Tensor, el H100 puede producir hasta 800 TFLOP de potencia FP32. El H100 también ofrece 80 GB de mayor capacidad de memoria en comparación con los 64 GB del MI210. A primera vista, NVIDIA cobra una prima por sus capacidades superiores de AI/ML.
Especificaciones de Tesla A100 basadas en GPU NVIDIA Ampere GA100:
tarjeta grafica nvidia tesla | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | Tesla P100 (PCI Express) | Tesla M40 (PCI Express) | Tesla K40 (PCI Express) |
---|---|---|---|---|---|---|---|---|---|---|
GPU | GH100 (tolva) | GH100 (tolva) | GA100 (amperios) | GA100 (amperios) | GV100 (voltios) | GV100 (voltios) | GP100 (Pascales) | GP100 (Pascales) | GM200 (Maxwell) | GK110 (Kepler) |
Nodo de proceso | 4nm | 4nm | 7nm | 7nm | 12 nm | 12 nm | 16nm | 16nm | 28nm | 28nm |
transistor | 80 billones | 80 billones | 54,2 billones | 54,2 billones | 21,1 billones | 21,1 billones | 15,3 billones | 15,3 billones | 8 billones | 7,1 billones |
Tamaño de GPU | 814 mm2 | 814 mm2 | 826 mm2 | 826 mm2 | 815 mm2 | 815 mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
SMS | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
CPT | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
Núcleo CUDA FP32 para SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
Núcleos CUDA FP64/SM | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Núcleos CUDA FP32 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Núcleos CUDA FP64 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
núcleos tensores | 528 | 456 | 432 | 432 | 640 | 640 | N / A | N / A | N / A | N / A |
unidad de parcela | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
aumentar el reloj | Ser determinado | Ser determinado | 1410 MHz | 1410 MHz | 1601 MHz | 1530 MHz | 1480 MHz | 1329 MHz | 1114 MHz | 875 MHz |
ARRIBA (DNN / IA) | 2000 SUPERIOR4000 SUPERIOR | 1600 ARRIBA 3200 ARRIBA | 1248 TOP 2496 TOP con moderación | 1248 TOP 2496 TOP con moderación | 130 ARRIBA | 125 ARRIBA | N / A | N / A | N / A | N / A |
calculo FP16 | 2000 TFLOP | 1600 TFLOP | 312 TFLOP624 TFLOP con moderación | 312 TFLOP624 TFLOP con moderación | 32,8 TFLOP | 30,4 TFLOP | 21,2 TFLOP | 18,7 TFLOP | N / A | N / A |
calculo FP32 | 1000 TFLOP | 800 TFLOP | 156 TFLOP (predeterminado 19,5 TFLOP) | 156 TFLOP (predeterminado 19,5 TFLOP) | 16,4 TFLOP | 15,7 TFLOP | 10,6 TFLOP | 10,0 TFLOP | 6,8 TFLOP | 5.04 TFLOP |
calculo FP64 | 60 TFLOP | 48 TFLOP | 19,5 TFLOP (9,7 TFLOP predeterminado) | 19,5 TFLOP (9,7 TFLOP predeterminado) | 8.2 TFLOP | 7,80 TFLOP | 5,30 TFLOP | 4.7 TFLOP | 0,2 TFLOP | 1,68 TFLOP |
interfaz de memoria | HBM3 5120 bits | HBM2e 5120 bits | HBM2e 6144 bits | HBM2e 6144 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2 4096 bits | GDDR5 de 384 bits | GDDR5 de 384 bits |
Tamaño de la memoria | Hasta 80GB HBM3 a 3.0Gbps | Hasta 80 GB HBM2e a 2,0 Gbps | Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 1,6 TB/s | Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 2,0 TB/s | 16 GB HBM2 a 1134 GB/s | 16GB HBM2 a 900GB/s | 16GB HBM2 a 732GB/s | 16 GB HBM2 a 732 GB/s 12 GB HBM2 a 549 GB/s | 24GB de GDDR5 a 288GB/s | 12GB de GDDR5 a 288GB/s |
Tamaño de caché L2 | 51,200 KB | 51,200 KB | 40960KB | 40960KB | 6144KB | 6144KB | 4096KB | 4096KB | 3072KB | 1536KB |
PDT | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |