La Nvidia GeForce RTX 3090 Founders Edition ahora ocupa el primer lugar en nuestra Puntos de referencia de GPU jerarquía, aunque donde aterriza en el mejores tarjetas gráficas es una pregunta más difícil de responder. Mientras que la GeForce RTX 3080 se mantuvo con la estructura de precios existente de la serie RTX 20, reemplazando el RTX 2080 Super al precio de $ 699, el RTX 3090 ve el RTX 2080 Ti Precio de lanzamiento de $ 1200 y lo aumenta otros $ 300. Sin embargo, hay un punto de vista alternativo: la GeForce RTX 3090 también es un reemplazo para la Titan RTX de $ 2,500, en cuyo caso es una tarjeta más rápida que cuesta $ 1,000 menos. De cualquier manera, necesitará algunos bolsillos profundos si desea poseer la nueva tarjeta halo de Nvidia.
Ya tenemos el Análisis profundo de la arquitectura de amperios que detalla lo que hace que la GeForce RTX 3090 funcione. Empiece por ahí si quiere más información sobre cómo el 3090 y el GA102 ofrecen nuevos niveles de rendimiento. Cubriremos los aspectos más destacados aquí, pero la respuesta simple es que Nvidia ha optado por un nodo de proceso más pequeño, más núcleos, memoria más rápida … además de más potencia y un precio más alto. Con 350W TGP (potencia gráfica total), esta es, con mucho, la GPU de consumo más consumidora de energía que Nvidia haya lanzado (sin contar las tarjetas de doble GPU). También es la GPU de marca GeForce más cara de la historia (a menos que cuentes la GeForce GTX Titan Z de doble GPU, que no es mi caso).
Tenemos algunas pruebas adicionales que todavía estamos tratando de ejecutar antes de emitir nuestro veredicto final (mirándolo 8K, o al menos 4K con DSR emulando 8K), por lo que aún no tendremos un veredicto final. También tenemos algunas tarjetas de socios AIB (tablero complementario) que veremos en los próximos días, una vez que hayamos tenido algo de tiempo para ejecutar todas las pruebas y recopilar algunos datos.
Una cosa que no podemos predecir completamente es la disponibilidad, pero tenemos la corazonada de que no va a ser genial. En realidad, es más que una corazonada, ahora, como Nvidia se disculpó preventivamente ayer por la disponibilidad limitada de las tarjetas RTX 3090 (mientras que al mismo tiempo confirma las expectativas de rendimiento). Puaj. Teniendo en cuenta que las tarjetas RTX 3080 se han vendido tan rápido como llega el inventario, aunque la RTX 3090 cuesta más del doble… bueno, algunas personas están pagando casi $ 1,500 por las tarjetas RTX 3080. Probablemente no será agradable si tiene su corazón puesto en un 3090 y no hizo un pedido por adelantado. Solo dale un poco de tiempo, y las cosas eventualmente se resolverán. Cue mamá: «¡La paciencia es una virtud!» Gracias, ma, pero todavía estoy trabajando en ello.
El breve resumen de la GeForce RTX 3090 es mucho de lo que cabría esperar. En teoría, es aproximadamente un 20% más rápido que el RTX 3080 basado solo en las especificaciones, con más del doble de memoria. La VRAM adicional realmente no importa mucho para la mayoría de los juegos a menos que esté funcionando a 8K (quizás 5K), pero puede resultar útil para algunas cargas de trabajo profesionales. El RTX 3090 también requiere una CPU robusta para aprovechar al máximo la tarjeta (realizaremos algunas pruebas adicionales en los próximos días para demostrarlo, pero puede tener una idea de qué esperar de nuestro Artículo sobre escalado de CPU RTX 3080). Esta es en gran medida una GPU diseñada para ultra juegos de 4K, y en esa configuración, es un 12% más rápido que el 3080 en promedio en nuestro conjunto de pruebas existente, y un 14% más rápido en nuestro conjunto de pruebas de bonificación. Baja a 1440p ultra, y el 3090 es solo un 8% más rápido que el 3080. ¿Si estás funcionando a 1080p? No te molestes, en serio.
Ahora, profundicemos en las especificaciones y veamos qué ha cambiado en relación con otras GPU de Nvidia.
Especificaciones de la GPU Nvidia
Tarjeta grafica | RTX 3090 FE | RTX 3080 FE | Titán RTX | RTX 2080 Ti FE |
---|---|---|---|---|
Arquitectura | GA102 | GA102 | TU102 | TU102 |
Proceso tecnológico | Samsung 8N | Samsung 8N | TSMC 12FFN | TSMC 12FFN |
Transistores (mil millones) | 28,3 | 28,3 | 18,6 | 18,6 |
Tamaño de matriz (mm ^ 2) | 628,4 | 628,4 | 754 | 754 |
SMS | 82 | 68 | 72 | 68 |
Núcleos de GPU (FP32) | 10496 | 8704 | 4608 | 4352 |
Núcleos de GPU (INT32) | 5248 | 4352 | 4608 | 4352 |
Núcleos de tensor | 328 | 272 | 576 | 544 |
Núcleos RT | 82 | 68 | 72 | 68 |
Reloj base (MHz) | 1395 | 1440 | 1350 | 1515 |
Impulsar el reloj (MHz) | 1695 | 1710 | 1770 | 1635 |
Velocidad de VRAM (Gbps) | 19,5 | 19 | 14 | 14 |
VRAM (GB) | 24 | 10 | 24 | 11 |
Ancho del bus VRAM | 384 | 320 | 384 | 352 |
ROP | 112 | 96 | 96 | 88 |
TMU | 328 | 272 | 288 | 272 |
TFLOPS FP32 | 35,6 | 29,8 | 16,3 | 14,2 |
TOPS INT32 | 17,8 | 14,9 | 16,3 | 14,2 |
Tensor TFLOPS FP16 (escasez) | 142 (285) | 119 (238) | 130 | 114 |
RT TFLOPS | 69,5 | 58,1 | 49,2 | 45,7 |
Ancho de banda (GBps) | 936 | 760 | 672 | 616 |
TDP (vatios) | 350 | 320 | 285 | 260 |
Fecha de lanzamiento | Septiembre de 2020 | Septiembre de 2020 | Diciembre de 2018 | Septiembre de 2018 |
Precio de lanzamiento | $ 1,499 | $ 699 | $ 2,499 | $ 1,199 |
Arquitectura GeForce RTX 3090: casi una GA102 completa
De nuevo, nuestro Arquitectura amperio entra en más detalles sobre los diversos aspectos de las nuevas GPU de la serie 30. Hay muchos cambios en relación con el anterior. Arquitectura de Turing, pero aquí está el carrete de lo más destacado.
Primero, GA102 usa la tecnología de proceso 8N de Samsung, lo que significa más transistores en un área más pequeña que TU102. Si observamos estrictamente la densidad general de transistores, GA102 contiene 45 millones de transistores por milímetro cuadrado, mientras que la densidad TU102 es de ‘solo’ 24,7 millones de transistores por milímetro cuadrado. Eso es bueno, pero claramente no tan bueno como el nodo N7 de TSMC: el chip GA100 más grande utilizado en el A100 de Nvidia contiene 65,4 millones de transistores por milímetro cuadrado. Además, Navi 10 de AMD tiene 41 millones de transistores por mm cuadrado, por lo que Nvidia al menos ha igualado ese nivel de densidad; sin embargo, comparar entre arquitecturas definitivamente es mirar manzanas y naranjas.
Continuando, la GeForce RTX 3090 usa un chip GA102 casi completo. De los 84 potenciales SM (multiprocesadores de transmisión), solo dos están deshabilitados. Eso sugiere que los rendimientos son muy buenos… o Nvidia no planea vender casi tantos chips 3090 como 3080 chips. Sospechamos que la segunda opción está más cerca de la verdad, y los rendimientos reales son un secreto muy bien guardado en estos días. El 3090 también tiene siete GPC (clústeres de procesamiento de gráficos), y los ROP (salidas de procesamiento) ahora son parte del GPC en lugar del controlador de memoria, lo que le da al 3090 112 ROPS.
Quizás un cambio más importante es que la GeForce RTX 3090 viene equipada con 24 GB de memoria GDDR6X, esta vez a 19,5 Gbps (en comparación con los 19 Gbps de la 3080). Esto se logra habilitando los dos últimos controladores de memoria de 32 bits en GA102 y luego ejecutando 24 chips en el modo de interfaz de 16 bits de ancho medio. Eso también significa que los chips GDDR6X están ubicados en ambos lados de la PCB (placa de circuito impreso), mientras que la RTX 3080 solo tiene memoria en el mismo lado que la GPU. Ciertamente hay una cuestión de cuánto afecta esto Temperaturas de la memoria GDDR6X, especialmente cuando la mitad de la VRAM no se enfría activamente. Sin embargo, en la actualidad, no tenemos una forma de medir las temperaturas del chip GDDR6X.
Hemos hablado bastante de los cambios en el núcleo de GPU CUDA en artículos anteriores de Ampere, porque es una de las diferencias más significativas entre Ampere y Turing. Turing incluyó 64 núcleos CUDA compatibles con FP32 por SM, con 64 núcleos CUDA compatibles con INT32 adicionales (y dos núcleos FP64 por motivos de compatibilidad). Los núcleos FP32 e INT32 eran rutas de datos independientes y se podían utilizar al mismo tiempo. Los núcleos FP32 también podrían ejecutar matemáticas FP16 al doble de rendimiento: modo ‘matemático rápido’.
Para Ampere, los núcleos FP32 pierden soporte para las matemáticas rápidas FP16, que se trasladan a los núcleos Tensor; sigue siendo el doble del rendimiento FP16 de los núcleos FP32 dedicados, pero solo iguala el rendimiento FP16 en general. Mientras tanto, los núcleos INT32 obtienen soporte para los cálculos de FP32, lo que significa que el rendimiento total de FP32 por SM se ha duplicado. Al mismo tiempo, el rendimiento de INT32 por SM se ha mantenido igual. Esto tiene algunas ramificaciones interesantes para el rendimiento general, pero básicamente, alrededor del 30-35% de la carga de trabajo central de CUDA en los juegos es INT32 (para búsquedas de punteros de direcciones, cálculos de texturas y otros trabajos similares). Eso significa que una buena parte de la segunda ruta de datos estará ocupada con INT32, por lo que el aumento del rendimiento en el mundo real a menudo será menor de lo que sugeriría el número FP32 TFLOPS sin procesar.
En otros lugares, los núcleos tensoriales son otra mejora sustancial en relación con Turing, con el doble de rendimiento por núcleo. Excepto que hay la mitad de núcleos tensoriales por SM. Los núcleos tensoriales de tercera generación agregan soporte para la escasez de grano fino, que puede duplicar el rendimiento nuevamente en relación con Turing cuando se usa. También vale la pena señalar que los núcleos de tensor de tercera generación agregan soporte para los tipos de datos INT8 e INT4 a 2x y 4x el rendimiento base FP16.
Los puertos de video en GeForce RTX 3090 FE son los mismos que en RTX 3080: un puerto HDMI 2.1 y tres salidas DisplayPort 1.4a. No hay puerto VirtualLink en esta ronda, ya que VirtualLink está básicamente muerto. Las cuatro salidas son capaces de 8K60 usando DSC (Display Stream Compression), una técnica «sin pérdida visual» que en realidad no tiene pérdida visual (aunque probablemente no lo notará en 8K). Hemos visto otras tarjetas con cinco salidas de pantalla, muchas de las cuales optan por HDMI 2.1 dual, así que téngalo en cuenta si planea usar una configuración de múltiples monitores.
Otros cambios (y estamos pasando por alto las cosas aquí, ya que ya lo hemos cubierto en la revisión de RTX 3080, así como en la pieza de arquitectura Ampere) incluyen núcleos RT que son hasta dos veces más rápidos, o incluso más en ciertas cargas de trabajo ( como el desenfoque de movimiento). Se ha aumentado la capacidad y el ancho de banda de la memoria caché / compartida L1. La caché L2 también es más grande que antes, y la caché L1 se puede configurar como cantidades variables de memoria L1 en comparación con la memoria compartida, según las necesidades de la aplicación. El tamaño del archivo de registro también aumenta, y GA102 puede hacer gráficos RT + simultáneos + DLSS (anteriormente, el uso de los núcleos RT detendría los núcleos CUDA).
Los operadores de ráster (ROPS) se han movido de los controladores de memoria a los GPC. Cada GPC tiene dos particiones ROP de ocho unidades ROP cada una. Esto proporciona más flexibilidad en el rendimiento, dando a GA102 y RTX 3090 un total de 112 ROPS. Cada GPC también incluye seis TPC (grupos de procesamiento de texturas) con ocho TMU (unidades de mapeo de texturas) y un motor polimorfo, aunque estos vienen en pares y Nvidia habilita 41 TPC para el 3090.
Finalmente, como se mencionó anteriormente, el controlador de memoria del RTX 3090 tiene una nueva función llamada EDR: Detección y reproducción de errores. Cuando la memoria detecta una transmisión fallida, en lugar de fallar o corromper los datos, simplemente vuelve a intentarlo. Intentará hacer esto hasta que tenga éxito, aunque aún es posible causar un bloqueo con el overclocking de la memoria. EDR permite la posibilidad de relojes de memoria más altos que pueden no funcionar mejor a medida que se acerca a los límites de la memoria. Eso es porque EDR termina reduciendo el rendimiento total de la memoria cuando ocurren transmisiones fallidas.