Saltar al contenido

Revisión de Nvidia GeForce RTX 3080 Founders Edition: un enorme salto generacional en rendimiento

septiembre 23, 2021
oskwAZyTdiJF9wQCYsV9Uh 1200 80

La GeForce RTX 3080 Founders Edition de Nvidia está aquí, reclamando el primer lugar en nuestra Jerarquía de puntos de referencia de GPU, y clasificarse como el mejor tarjeta gráfica actualmente disponible, siempre que busque el rendimiento primero, y el precio y la potencia sean preocupaciones menores. Después de meses de espera, finalmente tenemos datos de pruebas y puntos de referencia independientes. Nvidia ha lanzado el guante, claramente desafiante Big Navi de AMD para intentar igualar o superar lo que el Arquitectura amperio trae a la mesa.

Vamos a esperar un veredicto final por ahora, ya que tenemos otras tarjetas RTX 3080 de terceros para revisar, que comenzarán tan pronto como mañana. Esa es una buena noticia, ya que significa que los clientes no estarán limitados a la Founders Edition de Nvidia durante el primer mes más o menos como lo hicimos con el lanzamiento de la serie RTX 20. Otra buena noticia es que esta vez no hay un ‘impuesto’ de la Founders Edition: RTX 3080 FE cuesta $ 699, directamente desde Nvidia, y ese es el precio base de las tarjetas RTX 3080 por el momento. La mala noticia es que esperamos que la oferta sea insuficiente para mantenerse al día con lo que esperamos sea una demanda excepcionalmente alta.

La conclusión, si no le importan los spoilers, es que la RTX 3080 FE es un 33% más rápida que la RTX 2080 Ti, de media. O, si prefiere otros puntos de comparación, es un 57% más rápido que el RTX 2080 Super, 69% más rápido que el RTX 2080 FE – diablos, es incluso un 26% más rápido que el Titán RTX!

Pero hay una trampa: medimos todos esos resultados ‘porcentuales más rápidos’ en nuestro conjunto de pruebas que se ejecuta en configuraciones ultra 4K. La ventaja se reduce si baja a 1440p, y disminuye aún más a 1080p. Sigue siendo un 42% más rápido que un 2080 FE a 1080p ultra, pero esta es una tarjeta hecha para resoluciones más altas. Además, es posible que necesite una CPU más rápida para obtener la experiencia 3080 completa; consulte nuestro artículo complementario GeForce RTX 3080 CPU Scaling para obtener todos los detalles.

Especificaciones de la GPU Nvidia
Tarjeta grafica RTX 3080 FE RTX 2080 Super FE RTX 2080 FE
Arquitectura GA102 TU104 TU104
Proceso (nm) Samsung 8N TSMC 12FFN TSMC 12FFN
Transistores (mil millones) 28,3 13,6 13,6
Tamaño de matriz (mm ^ 2) 628,4 545 545
GPC 6 6 6
SMS 68 48 46
Núcleos FP32 CUDA 8704 3072 2944
Núcleos de tensor 272 384 368
Núcleos RT 68 48 46
Impulsar el reloj (MHz) 1710 1815 1800
Velocidad de VRAM (Gbps) 19 15,5 14
VRAM (GB) 10 8 8
Ancho del bus VRAM 320 256 256
ROP 96 64 64
TPC 34 24 23
TMU 272 192 184
GFLOPS FP32 29768 11151 10598
Tensor TFLOPS FP16 (escasez) 119 (238) 89 85
RT TFLOPS 58 26 25
Ancho de banda (GBps) 760 496 448
TDP (vatios) 320 250 225
Dimensiones (mm) 285x112x38 267x116x38 267x116x38
Peso (gramos) 1355 1278 1260
Fecha de lanzamiento 20 de septiembre 19 de julio 18 de septiembre
Precio de lanzamiento $ 699 $ 699 $ 799

Conoce GA102: El corazón de la bestia

(Crédito de la imagen: Tom’s Hardware)

Tenemos un artículo separado que profundiza en el Arquitectura amperio que alimenta la GeForce RTX 3080 y otras GPU relacionadas. Si desea el resumen completo de todo lo que ha cambiado en comparación con el Arquitectura de Turing, recomendamos empezar por ahí. Pero aquí está el carrete más destacado de los cambios más importantes:

La GA102 es la primera GPU de Nvidia en caer en un solo dígito en litografía, utilizando el proceso 8N de Samsung. El consenso general es que el nodo N7 de TSMC es ‘mejor’ en general, pero también cuesta más y actualmente tiene una demanda muy alta, incluso de Propia A100 de Nvidia. ¿Podrían las GPU Ampere de consumo haber sido incluso mejores con 7 nm? Quizás. Pero podrían haber costado más, solo estar disponibles en cantidades limitadas, o tal vez se hubieran retrasado unos meses más. Independientemente, GA102 sigue siendo un chip grande y poderoso, con 28,3 mil millones de transistores empaquetados en un troquel cuadrado de 628,4 mm. Si se está preguntando, eso es un 52% más de transistores que el chip TU102 usado en RTX 2080 Ti, pero en un área 17% más pequeña.

Ampere termina como una arquitectura dividida, con el GA100 asumiendo las ambiciones del centro de datos, mientras que el GA102 y otros chips de consumo tienen diferencias significativas. El GA100 se centra mucho más en el rendimiento FP64 para cargas de trabajo científicas, además de duplicar el hardware de aprendizaje profundo. Mientras tanto, el GA102 elimina la mayor parte de la funcionalidad FP64 y en su lugar incluye hardware de trazado de rayos, además de algunas otras mejoras arquitectónicas. Echemos un vistazo más de cerca al Ampere SM que se encuentra en el GA102 y GA104.

(Crédito de la imagen: Tom’s Hardware)

Las GPU de Nvidia constan de varios GPC (grupos de procesamiento de gráficos), cada uno de los cuales tiene una cierta cantidad de SM (multiprocesadores de transmisión). Nvidia divide cada SM en cuatro particiones que pueden operar en conjuntos de datos separados. Con Ampere, cada partición SM ahora tiene 16 núcleos FP32 CUDA, 16 núcleos FP32 / INT CUDA, un núcleo Tensor de tercera generación, unidades de carga / almacenamiento y una unidad de función especial. Todo el SM tiene acceso a memoria caché y memoria L1 compartida, y hay un solo núcleo RT de segunda generación. En total, eso significa 64 núcleos FP32 y 64 núcleos FP32 / INT, cuatro núcleos Turing y un núcleo RT. Analicemos eso un poco más.

Las GPU de Turing agregaron soporte para operaciones concurrentes FP32 (punto flotante de 32 bits) e INT (entero de 32 bits). FP32 tiende a ser la carga de trabajo más importante para gráficos y juegos, pero todavía hay una cantidad decente de operaciones INT, para cosas como cálculos de direcciones, búsquedas de texturas y varios otros tipos de código. Con Ampere, la ruta de datos INT se actualiza para admitir INT o FP32, pero no al mismo tiempo.

Si observa las especificaciones en bruto, Ampere parece ser un salto mucho mayor en el rendimiento que el 70% que medimos. 30 TFLOPS! Pero generalmente no se acercará a ese nivel porque la segunda ruta de datos es una situación de una u otra: no puede realizar ambos tipos de instrucciones en la canalización en el mismo ciclo. Nvidia dice que alrededor del 35% de los cálculos de juegos son operaciones INT, lo que significa que terminará con algo más como 20 TFLOPS de FP32 y 10 TOPS de INT en el RTX 3080.

Ya que estamos en el tema, también señalemos que una gran parte del mayor rendimiento proviene del aumento de los límites de potencia. RTX 2080 era una pieza de 225W (para la Founders Edition), y RTX 3080 básicamente agrega 100W a eso. Eso es la mitad más de potencia para un 70% más de rendimiento. Técnicamente, es una victoria en la eficiencia general, pero en la búsqueda del rendimiento, Nvidia tuvo que moverse más hacia la derecha en la curva de voltaje y frecuencia. Nvidia dice que RTX 3080 puede ofrecer una mejora del 90% en el rendimiento por vatio si limita el rendimiento al mismo nivel tanto en el 2080 como en el 3080 … pero vamos, ¿quién quiere limitar el rendimiento de esa manera? Bueno, tal vez portátiles, pero no vayamos allí.

(Crédito de la imagen: Tom’s Hardware)

Una cosa que no ha cambiado mucho son los puertos de video. De acuerdo, eso es solo parcialmente cierto. Primero, hay un solo puerto HDMI, pero es HDMI 2.1 en lugar del HDMI 2.0b de Turing, pero las tres conexiones DisplayPort siguen siendo 1.4a. Y por último, pero no menos importante, no hay ningún puerto de VirtualLink en esta ronda, aparentemente, VirtualLink está muerto. ROTURA. Los diversos puertos son todos capaces de 8K60 usando DSC (Display Stream Compression), una técnica «visualmente sin pérdida» que en realidad no es visualmente sin pérdida. Pero es posible que no lo note en 8K.

Volviendo a los núcleos, los núcleos tensores de tercera generación de Nvidia en GA102 funcionan en matrices FP16 de 8x4x4, por lo que hasta 128 operaciones de matriz por ciclo. (Los núcleos tensoriales de Turing usaban matrices de 4x4x4, mientras que el GA100 usa matrices de 8x4x8). Con FMA (fusionado multiplicar-agregar), son 256 operaciones FP por ciclo, por núcleo tensorial. Multiplique por los 272 núcleos tensoriales totales y la velocidad del reloj, y eso le da 119 TFLOPS de cómputo FP16. Sin embargo, los núcleos tensores de Ampere también añaden soporte para la escasez de grano fino; básicamente, elimina la pérdida de tiempo haciendo multiplicaciones por 0, ya que la respuesta es siempre 0. La dispersión puede proporcionar hasta el doble del rendimiento de FP16 en aplicaciones que pueden usarlo.

Los núcleos RT reciben mejoras similares, con hasta el doble de cálculos de intersección de rayos / triángulos por reloj. Los núcleos RT también admiten una variable de tiempo, que es útil para calcular cosas como el desenfoque de movimiento. En total, Nvidia dice que los nuevos núcleos RT del 3080 son 1.7 veces más rápidos que los RTX 2080, y pueden ser hasta cinco veces más rápidos para el desenfoque de movimiento.

También hay muchos otros cambios. Se ha aumentado la capacidad y el ancho de banda de la memoria caché L1 / memoria compartida para alimentar mejor los núcleos (8704 KB frente a 4416 KB), y la caché L2 también es un 25% más grande que antes (5120 KB frente a 4096 KB). La caché L1 también se puede configurar como cantidades variables de L1 en comparación con la memoria compartida, según las necesidades de la aplicación. El tamaño del archivo de registro también es casi un 50% mayor (17408 KB frente a 11776 KB) con el RTX 3080. GA102 también puede realizar gráficos RT + simultáneos + DLSS (anteriormente, el uso de núcleos RT detendría los núcleos CUDA).

Finalmente, los operadores de ráster (ROPS) se han movido de los controladores de memoria a los GPC. Cada GPC tiene dos particiones ROP de ocho unidades ROP cada una. Esto proporciona más flexibilidad en el rendimiento, por lo que cuando el GA102 tiene hasta 112 ROPS en total, el RTX 3080 desactiva dos controladores de memoria pero solo un GPC y termina con 96 ROPS. Sin embargo, esto es más crítico para el RTX 3070 / GA104, que todavía tiene 96 ROPS a pesar de que solo tiene ocho controladores de memoria. Cada GPC también incluye seis TPC (Agrupaciones de procesamiento de texturas) con ocho TMU (Unidades de mapeo de texturas) y un motor polimorfo, aunque Nvidia solo habilita 34 TPC para el 3080.

(Crédito de la imagen: Tom’s Hardware)

Con las mejoras principales fuera del camino, también analicemos rápidamente el subsistema de memoria. GA102 admite hasta doce canales de memoria de 32 bits, de los cuales diez están habilitados en el RTX 3080. Nvidia se asoció con Micron para usar su memoria GDDR6X, que utiliza la señalización PAM4 para aumentar las velocidades de datos incluso más que antes. Mientras que las tarjetas de la serie RTX 20 alcanzaron un máximo de 15,5 Gbps en el 2080 Super y 14 Gbps en las otras tarjetas RTX, GDDR6X funciona a 19 Gbps en el RTX 3080. Combinado con la interfaz de 320 bits, produce 760 GBps de ancho de banda – una mejora del 70% sobre RTX 2080.

El controlador de memoria del RTX 3080 también se ha mejorado, con una nueva función llamada EDR: Detección y reproducción de errores. Cuando la memoria detecta una transmisión fallida, en lugar de fallar o corromper los datos, simplemente vuelve a intentarlo. Hará esto hasta que tenga éxito, aunque todavía es posible causar un bloqueo con el overclocking de memoria. Lo interesante es que con EDR, se pueden lograr relojes de memoria más altos, pero aún así dan como resultado un rendimiento más bajo. Eso es porque el EDR termina reduciendo el rendimiento de la memoria cuando ocurren transmisiones fallidas. Tendremos más que decir sobre esto en la sección de overclocking.

GeForce RTX 3080 Founders Edition: diseño, refrigeración, estética

(Crédito de la imagen: Tom’s Hardware)

Nvidia ha alterado radicalmente el diseño de sus tarjetas Founders Edition para la serie RTX 30. El nuevo diseño aún incluye dos ventiladores axiales, pero Nvidia rediseñó en gran medida el PCB y lo acortó para que la ‘parte posterior’ de la tarjeta (lejos de los puertos de video) consista solo en un ventilador, heatpipes, aletas del radiador y la tarjeta gráfica habitual. sudario. Nvidia dice que el nuevo diseño ofrece mejoras sustanciales en la eficiencia de enfriamiento, mientras que al mismo tiempo reduce los niveles de ruido. Veremos los frutos del diseño más adelante.

La estética es muy subjetiva, y hemos escuchado que a mucha gente le gusta el nuevo diseño, mientras que a otros les parece aburrido. No hay brillo RGB si eso es lo tuyo, y la única iluminación consiste en un logotipo GeForce RTX blanco en la parte superior de la tarjeta con una iluminación sutil alrededor de la ‘X’ en ambos lados de la tarjeta (pero solo la mitad de la ‘X’ es iluminado en el lateral con el logo «RTX 3080»).

Personalmente, creo que la nueva tarjeta se ve bastante bien y se siente muy sólida en la mano. En realidad se trata de …

close