Mostrando las entradas con la etiqueta tarjetas de video. Mostrar todas las entradas
Mostrando las entradas con la etiqueta tarjetas de video. Mostrar todas las entradas

lunes, 14 de julio de 2008

ATi Radeon RV770 by ChileHardWare

Bueno ya hemos visto la revision a la arquitectura de nVidia la GT200 la cual ha sido muy criticada pues la competencia habi sacado semanas despues su nuevo chip que resulto ser muy competitivo en cuanto a precio/performance y este es el RV770 el cual sustituyo al bien recibido RV600 la arquitectura R700 de AMD-ATi fue sorprendente en papel pues llego a rebasar el Teraflop o calculos por segundo que puede realizar y por si fuera poco se implemento en el tope de linea la nueva memoria GDDR5 la cual sustituira a la actual GDDR4 la cual no fue bien recibida por la industria pero que al final no aportaba demasiado pues nVidia por su parte nunca fue partidario de la GDDR4 preferia seguir utilizando GDDR3 para sus soluciones graficas, en fin parace ser que al fin ATi volvio a tener la corono de las graficas y que los problemas han quedado atras pues en este año tendremos el lanzamiento de su solucion de dos nucleos la cual segun previews hace pedazos a la competencia lo cual habla de que los chicos de ATi se han puesto las pilas y han ganado terreno en cuento a miniaturizacion y han sorprendido a todos cono sus excelentes precios en sus ultimos chips de 65 y 55 nm, lo cual le ha costado un poco a nVidia como se vio en la nota anterior pero bueno veamos que tiene este chip dentro.

Arquitectura RV770

No ha pasado una semana desde que les entregamos a ustedes la primicia del lanzamiento de los nuevos GPUs de NVIDIA y nuevamente estamos haciendo un acto de presencia para traerles a ustedes la cobertura del lanzamiento del núcleo RV770 de AMD, también conocida como la serie ATI Radeon HD 4800.

¡Rompimos la barrera del Teraflop!, anuncia AMD cuando lanzó su tarjeta de cómputo AMD Firestream 9250 el mismo día de lanzamiento del GPU GT200 de NVIDIA, el cual era el objetivo principal de la segunda empresa hace un tiempo atrás en un webcast que ellos realizaron. Los rumores decían que el G92 sería el GPU encargado en llegar a esta marca, pero no fue así. Tampoco lo hizo su sucesor, el recién lanzado GT200. En la historia quedará escrito que esta marca es de color rojo y verde gracias al RV770.

Dicen que el tamaño no lo es todo y vaya que AMD lo demostró. Utilizando el proceso de manufactura más avanzado de TSMC (55nm) logró comprimir 956 millones de transistores en menos de la mitad del silicio que ocupa el GT200 de NVIDIA. Mucho mérito tiene esto, pues la empresa puede jactarse de que produce un chip relativamente económico y de consumo eléctrico mucho más racional que la bestia de 260w de su competidor.

Pero, ¿qué es un teraflop? ¿Para qué me sirve? ¿Por qué escucho rumores que el GPU de NVIDIA con menos poder de cómputo logra un mayor rendimiento en Crysis? Todas esas preguntas y muchas más serán resueltas en el siguiente análisis de su portal de tecnología favorito.

Arquitectura

Según las especificaciones técnicas de AMD, la empresa habla que su GPU posee 800 unidades de procesamiento de shaders (Shader Processing Units o SPUs) que al ser comparados con los 240 SPs de NVIDIA, nos da un 333.33% periódico más de elementos computacionales. Viendo estos números, la primera impresión que da es que el motor TeraScale (como denomina ATI a la arquitectura de su GPU) debe ser capaz de jugar Crysis a 2560x1600 con todo en máxima calidad y tener un rendimiento por encima de los 30 cuadros por segundo. Sin embargo, esto está lejos de la realidad y esto se debe a que la arquitectura de este GPU es muy diferente a la de su competidor.

Para poder entender este gráfico un poco mejor, hemos puesto algunos números que dividen el GPU en grandes bloques para así ir haciendo un análisis desmenuzado de este complejo chip.

1. Procesador de comandos y motor de configuración:

Las unidades funcionales, las cuales no han cambiado mucho desde el R600, son similares al procesador de hilos de NVIDIA, el procesador de comandos recibe las instrucciones del driver en donde se determina si lo que se va calcular son instrucciones de cómputo, pixeles, vértices o geometría para luego ser enviados al despachador de hilos (compuestos los hilos de una o más instrucciones) que envían posteriormente a los núcleos SIMD del GPU. En estas estructuras, también se encuentran algunas memorias cache para las instrucciones al igual que la unidad de Hierarchical Z (encargada de descartar los pixeles que no serán visibles en cada cuadro de animación) y teselador programable (¿inventé una palabra nueva?). Esta última unidad está siendo fuertemente promocionada por AMD como un avance único de su arquitectura pues NVIDIA no tiene dicha unidad. De las muchas innovaciones que se han presentado en el mundo de la renderización en 3D, la técnica de teselar es una de las más interesantes.

Si recuerdan ustedes algunas nociones de la técnica de renderización, sabrán que las imágenes en 3D están compuestas por polígonos, en específico triángulos. A mayor cantidad de ellos, mejor es la definición de la imagen. Sin embargo, utilizar demasiados triángulos para definir una imagen en extremo detalle puede ser muy costoso en rendimiento. La técnica de teselar permite que, usando un polígono base, éste se subdivida en muchos triángulos más. Así, con el costo de rendimiento de una imagen poco definida, se puede crear una de mucho más alta definición como lo gráfica el siguiente ejemplo que muestra la definición de imagen con distintos niveles de teselación.




Como se puede apreciar, esta técnica resulta ser muy interesante y debiese tener acogida por parte de los desarrolladores. Sin embargo, el futuro de esta técnica ha estado en veremos desde hace años, pues la primera versión de ella la introdujo ATI en la Radeon 8500 y todavía no ha logrado captar la atención de los desarrolladores. No solo esto, esta técnica no hace parte ni si quiera de DirectX 10.1, por lo que para implementarla se debe recurrir a instrucciones especificas que permiten hacerla funcional. Por eso, por mucho que AMD este promocionando esta técnica fuertemente, esta recién hará sentido cuando Microsoft termine DirectX 11 que incluye la teselación como parte de su especificación y para ello, falta mucho todavía.

2. Núcleos SIMD

En esta parte del GPU se concentra el grueso del poder de cómputo del RV770, pues es acá donde está escondido el poder de los teraflops que tanto se hace referencia. En resumen, este chip contiene en su interior 10 núcleos de instrucciones SIMD. Cada núcleo está compuesto por un conjunto de 16 stream processors (SPs) que incluyen en su interior 5 SPUs como se aprecia en el gráfico, desarrollado nuevamente gracias al Departamento Didáctico de CHW:

Su estructura y forma de funcionamiento tampoco ha variado mucho dese el R600 y el único cambio notorio es que aumentaron la cantidad de núcleos SIMD de 4 a 10. Sacando nuestra calculadora del bolsillo nuevamente podemos hacer el siguiente calculo: 10x16x5= 800 SPUs, a comparación de los 4x16x5= 320 SPUs del R600. Sin embargo, este cálculo no es compatible con el de la arquitectura GT200 en donde mencionamos que habían 10x3x8= 240 SPs. Esto se debe a que AMD considera que cada SP incluye 5 unidades de cálculo más pequeñas en su interior. Por lo tanto, la primera aproximación de equivalencia entre estas dos arquitecturas sería la siguiente:

* AMD: 10x1x16x5 (Núcleos SIMD, cantidad de núcleos SIMD, SP, SPU)

* NVIDIA: 10x3x8x1 (TPC, SM, SP, unidades de procesamiento por SP)


Como se menciono anteriormente, cada SP está compuesto por 5 unidades SPU, cuatro de ellas capaces de ejecutar una operación MAD (suma y multiplicación) y la quinta (SPU C) es una unidad que puede realizar cálculos especiales más complejas que las realizadas por los otros cuatro. Adicionalmente, cada SP tiene unos registros internos (espacio de memoria para almacenar datos compartida por todos los SPUs). Todo lo anterior se puede apreciar en el detalle de cada SP comparado con el SM de NVIDIA:

Como se puede observar, la organización del SP se asemeja mucho más a las unidades SM de NVIDIA que a sus SPs. Esta es la razón que justifica ajustar la forma como están compuestas las arquitecturas de AMD y NVIDIA.

Como 800 puede ser mayor, igual o menor a 240

Es en este punto del análisis técnico donde se debe hacer una pausa para poder comprender por qué las diferencias de rendimiento entre el RV770 y el GT200 entre lo que se aprecia en juegos y el poder teórico de computo de los GPUs, en donde en el primero NVIDIA es superior y en el segundo lo es AMD.

La primera distinción clave que hay que hacer es decir que cada SP de AMD procesa instrucciones de palabra muy larga (Very Long Instruction Word o VLIW) de ancho 5. Las instrucciones VLIW están diseñadas para aprovechar el paralelismo, al empaquetar un conjunto de hasta 5 instrucciones que no sean interdependientes entre sí (en otras palabras, ninguna de las 5 instrucciones puede depender de las otras) en una sola a ser ejecutada. El beneficio de emplear VLIW es que las unidades de cómputo son más sencillas, por lo que se requiere de menos transistores para construirlas. Sin embargo, esto trae como consecuencia que no siempre se están ejecutando 5 instrucciones en paralelo por SP por ciclo (hertz). Por lo tanto, para extraer el máximo nivel de paralelismo y por ende la eficiencia de la arquitectura, se requiere de un compilador muy sofisticado, que tenga una lógica muy avanzada que permita agrupar conjuntos de instrucciones con la menor cantidad de interdependencias posibles. Esto hace que la comunicación entre el software y el hardware de AMD sea mucho más complicada que el de NVIDIA y favorece a la segunda pues siempre será capaz de procesar una instrucción por ciclo por cada SP.

Ahondando en este estudio, como se mencionó en el análisis de la arquitectura de NVIDIA, el GPU procesa los hilos en grupos de a 32, los cuales se demoran en ser procesados 4 ciclos (dos hilos por SP). Por su parte, el RV770 es capaz de procesar un máximo de 16 hilos por núcleo SIMD (uno por cada SM) que pueden ser de un máximo de 5 instrucciones por hilo. Teniendo en cuenta las arquitecturas de cada GPU, el recién creado Departamento FLOPs y Calculadoras de Bolsillo de CHW llegó a las siguientes conclusiones:

* AMD= 10 núcleos SIMD x 16 hilos por ciclo = 160 hilos por ciclo de hasta 5 instrucciones

* NVIDIA = 3 SM x 10 TPC x (32 hilos / cada 4 ciclos) = 240 hilos por ciclo de sola una instrucción.


Lo anterior equivale a que AMD puede procesar un mínimo de 160 instrucciones por ciclo (25% superior a un G80 y 50% inferior al GT200) y un máximo de 800 instrucciones por ciclo (333% superior al GT200) a comparación de las 240 instrucciones constantes de NVIDIA. Antes de complicar más la historia, cabe aclarar que aquí se ven claramente las apuestas de cada empresa, mientras AMD optó por un GPU más sencillo en su arquitectura física (por ende, con mayores unidades de computo de menor tamaño) sacrificando la facilidad de compilación de los programas, NVIDIA opto por un GPU complejo pero mucho más sencillo de programar.

Pero esta historia todavía no termina aquí, falta el último ingrediente en esta teleserie. Si ustedes recuerdan bien, los SPs de NVIDIA corren a una frecuencia mayor al resto del GPU, por lo que aun cuando la velocidad de la Radeon HD 4870 sea de 750MHz, los SPs de la GTX 280 corren a 1296 MHz. Con esta última pieza del rompecabezas por fin podemos llegar a la mágica ecuación que permite determinar la cantidad de FLOPS (Operaciones de Punto Flotante por Segundo) que cada GPU de cada empresa afirma ser capaz de calcular (recuerden que las operaciones MAD valen por 2 FLOPS porque se calcula una suma y una multiplicación):

* AMD = (160 hilos x 5 instrucciones x750 MHz x 2 FLOPS)/10^12= 1.2 teraflops

* NVIDIA: (240 instrucciones x 1296 MHz x 2 FLOPS)/10^12 = 622.08 gigaflops


Al ver lo anterior, notamos que el resultado de NVIDIA es 2/3 de la cifra que ellos mismos indican para su GPU, equivalente a 933 gigaflops. ¿De dónde sale ese tercio adicional? Si ustedes miran la composición del SM del GT200 podrán observar que hay una unidad que se llama SFU. La SFU se encarga de muchas tareas como lo es el caso de la interpolación de valores (una función muy importante para los cálculos gráficos). Esta unidad, cuando no tiene tareas pendientes, es capaz de ejecutar una instrucción MUL (multiplicación) adicional con lo cual, en el mejor de los casos, NVIDIA procesaría 3 FLOPS por reloj, con ello llegando al valor de 933 gigaflops que ellos aseguran es capaz de procesar su GPU. Por lo que se puede ver, tanto AMD como NVDIA maquillan sus resultados con respecto a los FLOPS poniéndolas siempre en el mejor de los casos. Ahora, resulta interesante que poniendo el peor de los casos, el GT200 es casi un 260% más rápido que el RV770.

Después de este profundo y complejo análisis, cabe preguntarse, ¿Qué empresa tomó la mejor decisión? Por una parte, tenemos que el rendimiento de AMD varía mucho y no depende solo de su arquitectura sino del software que le envía instrucciones a procesar por lo que su rendimiento real es más impredecible. Sin embargo, esto ayuda a mantener a raya el tamaño y consumo del GPU lo que le permite implementar una tarjeta con dos GPUs fácilmente para competir contra la fuerza bruta del GT200 (estaríamos en presencia de una tarjeta con un mínimo de 320 instrucciones por ciclo y un máximo de 1600). Por otro lado, el GT200 tiene un rendimiento estable y predecible siempre que no depende de la forma como esté compilado el software. Esto hace que el GPU de NVIDIA sea mucho más fuerte en rendimiento medio pero a la vez hace que este sea prácticamente inmanejable en cuanto a tamaño, consumo eléctrico y costo. El as bajo la manga de una GX2 es prácticamente imposible de tener en cuenta y esto le puede pesar en contra a NVIDIA en el largo plazo.

Un último detalle a resaltar de los núcleos SIMD, es que tienen capacidad de procesar 240 gigaflops en precisión doble, (64-bit) que es considerablemente más que los 90 gigaflops que puede procesar NVIDIA. AMD no nos suministro mayor información aparte de lo mencionado, así que es poco lo que se puede saber de cómo obtienen dichos valores.

Más Arquitectura

3. Caché y Unidades de filtrado de textura

El RV770 incorpora un par de memorias caché para los núcleos SIMD (ambos de 16 KB). El primero de ellos sirve para el almacenamiento de información compartida de datos entre los SPs de AMD y el segundo es un cache compartido entre todos los 10 núcleos SIMD del GPU.

Se sigue manteniendo la proporción de una unidad de cálculo de texturas por núcleo SIMD igual que en el R600, lo que nos da un aumento de 16 a 40 unidades de direccionamiento y filtrado de texturas. Sin embargo, el ancho de banda del cache de texturas se duplico en el RV770 al igual que se duplicó el almacenamiento efectivo de ellas en el cache L1. Estas mejoras en las unidades de texturas hacen que sean mucho más eficientes que las del GT200, pues no solo procesan más texturas por segundo, sino que además lo hacen con la mitad de las que requiere NVIDIA.

4. ROPs

En el área de post-procesamiento de pixeles (ROPs) se mantuvo el mismo número de unidades con respecto al R600 (4 particiones), cada una atada a un controlador de memoria de 64-bit. Esto dista de la estrategia de NVIDIA quien agregó dos particiones ROP más con respecto a su GPU anterior. Sin embargo, puede que esto no sea muy necesario para AMD, pues desde el R600 optaron porque la resolución de las tareas de Anti-Aliasing estuvieran a cargo de los SPUs y no de unidades dedicadas para ello.

Con todo y ello, el cambio más notorio de las unidades ROP fue la inclusión de 8 unidades más de profundidad stencil (depth stencil) que permiten mejorar notablemente el rendimiento de muchos efectos de post-procesamiento tales como sombras. Junto con estas, aun cuando no detalladas por AMD, hicieron mejoras en el rendimiento de los filtros Anti-Aliasing prácticamente duplicándolo en todos los casos. También, su amplia gama de filtros Anti-Aliasing customizables fueron mejorados para evitar que los pixeles se viesen borrosos (una gran critica que se hizo en la generación R600 a los filtros CFAA). De hecho, en muestras suministradas por AMD, aseguran que sus filtros 8x MSAA y 24x CFAA, superan ampliamente al filtro 16xQ CSAA de NVIDIA y para ello, se muestra el siguiente ejemplo:

5. Controlador de memoria

Pareciese que el diseño del bus de anillo que implementaron soluciones anteriores no presentaba los beneficios que AMD esperaba, pues con la poca información que tenemos al respecto de este, todo pareciese indicar que utiliza una estructura más tradicional en donde un hub central distribuye los datos a cada controlador de memoria (4 de ellos para un ancho de banda de 256-bit total) alrededor del GPU. Sin embargo, el diseño es más inteligente que el de NVIDIA pues los controladores de memoria están puestos alrededor del motor de shaders del RV770, en vez de una ubicación central la cual resulta más compleja a la hora de distribuir los datos de forma más eficiente.


Adicionalmente, y probablemente lo más importante, es que el controlador de memoria ahora soporta las memorias gráficas más avanzadas del mercado, llamadas GDDR5. Estas memorias se caracterizan, entre otras cosas, por ofrecer mayor eficiencia en el ancho de banda, mayores velocidades de reloj y menor consumo eléctrico que diseños anteriores. No solo esto, los módulos de memoria son más pequeños, la integridad de la señal es mejor (para mayor estabilidad a altas frecuencias) y tiene mayor confiabilidad en la entrega de datos ademas de mayor tolerancia a los errores, lo que finalmente se traduce en una mejor escalada de frecuencia. Finalmente, este tipo de memorias permiten hacer diseños de las rutas que conectan las memorias con el GPU más sencillos lo que abarata los costos de desarrollo del PCB y disminuye el ruido eléctrico en este por empleo de rutas menos complejas.

Lo medular acá es que AMD opto por aumentar el ancho de banda utilizando memoria de mayor ancho de banda en vez de emplear un bus más complejo como el de NVIDIA. Esto hace que el controlador de memoria sea más sencillo, requiera de menos conexiones eléctricas y escale a mayores frecuencias pues no está al límite de la tecnología, sino que está recién en su primera etapa. Es cierto que el ancho de banda efectivo del RV770 es inferior al del GT200, pero este último está al límite de sus posibilidades y no es mucho lo que se puede mejorar por lo que AMD no tendría muchos inconvenientes en el caso de que quiera aumentarlo.

Después de este análisis en profundidad de la arquitectura, podemos resumir las características del GPU en sus versiones Radeon HD 4870 y Radeon HD 4850 a comparación de la Radeon HD 3870 y la GTX 280 en la siguiente tabla:


Stream computing, física y consumo eléctrico


NVIDIA lleva un buen tiempo anunciándole a todo pulmón a quien lo escuche con respecto a CUDA y sus bondades. De hecho, tienen una visión y una estrategia muy clara de hacia dónde quieren apuntar y lo han promovido mucho en todas sus presentaciones. Es tan así, que hacen una distinción muy clara entre el modo gráfico y el modo computo de su GPU, aparte de tener separados muchos recursos (desde pagina web hasta clases universitarias) para promover CUDA.

El caso de AMD es menos claro, es cierto, tienen casos de aplicaciones que explotan el poder de cómputo de sus GPUs, tienen herramientas de desarrollo como Brook+ y están trabajando en futuros estándares de computación en paralelo como OpenCL (Open Compute Language). Sin embargo, pareciese ser que AMD promueve este conjunto de herramientas más como por decir “nosotros también lo hacemos” que como un esfuerzo concentrado por hacer que la computación en sus GPUs despegue. Entre lo que hay en las presentaciones de AMD, la documentación para utilizar su GPU y el soporte prestado a las herramientas queda la sensación es que su estrategia no está desarrollada sino mas bien es improvisada.

Similar a lo que ocurre con las herramientas de cómputo para GPUs AMD, pasa con su soporte de física. Al igual que NVIDIA, AMD lleva años prometiendo soporte de física por medio de sus GPUs, sin embargo esto no se ha materializado. En el caso de NVIDIA, se pueden ver acciones completas como la adquisición de AGEIA, portar PhysX a CUDA, drivers beta y demostraciones. Por otro lado, AMD apenas menciona que prefiere usar Havok como motor de física y lanza una frase que no entrega muchas esperanzas al compromiso de AMD con dicha tecnología: “Exploración del soporte del GPU ATI Radeon para el soporte de productos Havok donde la carga de trabajo tome ventajas del poder de computo”. En pocas palabras, es poco lo que se ha avanzado con respecto a las promesas que la empresa ha hecho en el pasado.

Finalmente, y para terminar la revisión de la arquitectura, se debe resaltar que AMD desarrolló un GPU que aun cuando es muy poderoso, también es mucho más eficiente desde el punto de vista energético. Utilizando una mezcla de un proceso de manufactura más avanzado, una arquitectura pensada en un consumo eléctrico racional y técnicas de ahorro de energía, el RV770 se convierte en la arquitectura más eficiente y sea la solución más verde en cuanto a GPUs de alto rendimiento.

Conclusiones

La sorpresiva respuesta de NVIDIA la semana pasada al anuncio del RV770 por medio del lanzamiento de la 9800GTX+ a un precio muy bajo muestra que la empresa está muy preocupada. AMD produjo un GPU extremadamente poderoso y lo que es más relevante, a un precio muy bajo ($199 dólares por la Radeon HD 4850 y $299 dólares por la Radeon HD 4870). Estamos hablando que AMD está posicionando su último GPU como un producto de rango medio, es decir lo que hace poco tiempo era tope de línea y costaba acorde a ello, ahora se puede conseguir a precios muy asequibles. ¡Gracias AMD por ayudar a influir a la baja los precios de las tarjetas gráficas!

AMD tiene un GPU de tamaño manejable, con una arquitectura flexible (pensando en sus futuras optimizaciones) de consumo energético razonable y de bajo costo. Definido en palabras de AMD, la empresa logró avances en consumo energético, eficiencia, escalabilidad y asequibilidad en precio, mientras que NVIDIA tiene problemas en esos mismos parámetros.

El margen de maniobra de NVIDIA es mucho más reducido y su riesgosa apuesta puede poner en aprietos a la empresa, mientras que AMD, aprendiendo de la lección que le entregaron los muchos problemas en la introducción del R600, optó por replantearse el mercado y su dura competencia con NVIDIA. Concentrándose en sacar GPUs de muy alto rendimiento en la gama media a precios bajos y compitiendo en la gama alta ya sea con soluciones CrossfireX o con tarjetas de video X2, pareciese que su lectura del mercado es más acertada o por lo menos más balanceada.

Considerando los rumores que se han escuchado con respecto al R700, el cual podría tener en su interior circuitería especial que le permitiese a cada GPU comunicarse de forma más eficiente y tener cualidades como compartir el mismo banco de memoria, estaríamos frente a un producto más que competitivo con la GTX 280, pues no se limitaría a simplemente poner dos GPUs y habilitar Crossfire. Si esta solución llegase a ser superior en rendimiento a la GTX280 o un poco inferior a ella, pero a un precio más bajo, a NVIDIA le quedarían muy pocas opciones sobre la mesa con su actual arquitectura, pues su GPU está muy al límite de la tecnología en cuanto a proceso de manufactura, velocidades del GPU, controlador de memoria, consumo eléctrico y costo. De hecho, en estos momentos la arquitectura con mayor flexibilidad de la empresa es la del G92, (aunque ésta es cada vez menor pues ya de por sí es un refinamiento del G80) demostrado claramente con la rápida respuesta al lanzamiento del RV770. Pero ese lanzamiento demuestra una cosa, NVIDIA no es una empresa que cederá fácilmente en esta batalla.

Ciertamente se acercan tiempos muy interesantes pues hoy AMD con el lanzamiento de su arquitectura mostró que tienen una estrategia muy agresiva al mismo tiempo que una clara visión de futuro con respecto a los GPUs para gráficas. Se menciona esto ultimo pues en cuanto a cómputo, creemos que AMD no es muy claro en su postura y no inspira la confianza que lo hace la faceta gráfica del chip. Felicitamos a AMD por no haberse rendido en la guerra de GPUs de alto rendimiento y ofrecernos una propuesta que mantiene vivo el espíritu de la competitividad que permite que la gran mayoría de las personas puedan gozar de excelente rendimiento a precios muy bajos. Adicionalmente, tendremos una entretenida lucha de tanto AMD como NVIDIA con propuestas en tanto arquitectura como estrategias comerciales diametralmente opuestas. ¿De qué lado de la fuerza estarán ustedes en esta generación?

Nota del Autor: Pedimos disculpas por no poder ser más específicos en ciertas áreas de la arquitectura, pero la información proporcionada por AMD fué muy incompleta y se debío investigar mucho dentro de la poca información disponible de forma independiente para poder realizar este artículo.


(c) ChileHardWare URL ORIGINAL

nVidia GeForce GT200 by ChileHardWare

Bueno hace ya mucho que no tomammos reviews de nuestros amigos de Chilehardware XD y para que no se vea tan vacio el blog y luego de que mi cuate el pinguino nos contara la historia de Hankcock, bueno en los ultimos meses se han dado los lanzamientos mas esperados del verano para los entusiastas por lo menos, nVidia cambio de nombre a sus tradicionales series que llevaban secuencias series 4,5,6,7,8 y finalmente 9 desde la vieja Geforce 4 se habia mantenido el numero hasta la 9800 que parecia un dejavú ya que hace 3 generaciones o series Ati owneara a nVidia con ese mismo modelo y las cosas han cambiado desde entonces nVidia se habia empeñado en hacer mejores productos y ATi paraecia que luego de sus logros se durmio en sus laureles, bueno pero el punto es hace un mes mas o menos nVidia presento su nuevo chip el sucesor del no tan bien recibido por su excesivo costo el n90 pero que ya se ha devaluado por la competencia con ATi y nVidia decidio renombrar a su familia de chips y en esta ocasion en lugar de nombrarlo n100 o algo asi se ha cambiado a la familia por GT200 y con la sorpresa de la reduccion a 65nm y un buen performance pero un excesivo precio, pero bueno pasemos a conocer la arquitectura del GT200 lo bueno y lo nuevo.

Arquitectura GT200

Hoy celebramos por partida doble. Por un lado NVIDIA lanza una nueva arquitectura luego de 18 meses y por otra parte, bastante más importante, estrenamos nuevo colaborador: Nicolás Rencoret, una eminencia en el tema gráfico que nos dará una cátedra de lo que trae GT200 bajo la capota.

1.400 millones de transistores miniaturizados en un cuadrado de silicio de 576mm2 con proceso de fabricación de 65nm, muchos de ellos corriendo a más de 1200MHz, alimentados por 1GB de memoria sobre un bus de 512-bit de ancho y disipando 236w. Este es el más breve de los resúmenes de la arquitectura GT200 de NVIDIA. Sacando una calculadora y haciendo unas cuantas sumas y restas, es fácil comprender que la empresa de Santa Clara está introduciendo hoy un chip que estresa al límite muchas de las estrictas leyes de la física.

Realmente es para dejar pasmado a cualquiera que pueda comprender la magnitud de lo que pudo lograr la empresa. Por eso, hoy les mostraremos un análisis técnico detallado del desarrollo de este GPU para no solo entender que es lo que lo hace especial, sino para entender cómo ha cambiado la mentalidad de NVIDIA con todo el ruido que ha existido en el ambiente con respecto a CPUs+GPUs, Larrabees, fusiones y demás acontecimientos recientes en el mundo de los GPUs y el procesamiento de datos.

El tamaño y sus implicancias

El GPU GT200 es grande, extremadamente grande y esto combinado con el hecho de que la arquitectura de GPUs es más compleja que la de un CPU, tiene una cantidad importante de consecuencias.

Para aproximarse de mejor forma a este tema, es ideal visualizar la evolución de los GPUs y los CPUs a través del tiempo en cuanto a tamaño y densidad de componentes.



Como se puede apreciar, Intel ha sido capaz de mantener el tamaño de sus CPUs bajo control lo cual es el resultado principalmente del hecho de que son líderes en los procesos de miniaturización para la fabricación de chips, junto con el hecho de que un muy elevado porcentaje de sus transistores son empleados en memoria cache en vez de ser unidades de procesamiento. Por otro lado, a NVIDIA le ha costado controlar el tamaño de sus GPUs y sus desarrollos les están comenzando a salir un poco de las manos. La razón de esto, es que mientras más grande sea el tamaño del cuadrado de silicio, se pueden obtener menos chips por cada oblea (wafer) que se procesa. Esto es obvio, pues la oblea no ha crecido en diámetro - 300mm - en muchos años. Si para el G80 cada disco tenía 121 GPUs de 484mm², siendo que el tamaño del GT200 es ahora de 576mm², la cantidad de ellos se reduce aproximadamente a 100. Junto con esto, la cantidad de chips sin defectos o en otras palabras, su rendimiento productivo (yields) disminuye debido a que las impurezas ahora amenazan a la superficie de un circuito impreso cuya área es mayor. Por ende, la cantidad de GPUs buenos se reduce en una buena cantidad con respecto a los del G80 trayendo como resultando que el costo del GT200 sea significativamente más alto para la empresa.


Adicionalmente, la cantidad de transistores en cada procesador gráfico ha aumentado a un ritmo considerablemente más rápido que el de los CPUs como se puede ver en la tabla. Considerando que es Intel la empresa que utiliza los procesos de manufactura más modernos del mundo y no NVIDIA, se puede ver como esta última esta estresando mucho más la tecnología a su límite. Esto se demuestra de forma muy clara cuando se compara el consumo en watts de los más recientes desarrollos de ambas empresas: mientras el Intel Core 2 Extreme QX9770 consume - según documentos de la empresa - 150w, el GT200 disipa 236w, un 57% más aproximadamente. No solo esto, debido a que los transistores del GPU son en su gran mayoría unidades de procesamiento a comparación del caso de Intel en donde la mayoría se emplean en memoria cache, la cantidad de ruido eléctrico generado dentro de cada GPU está haciendo que cada vez sea más difícil que ellos logren frecuencias más elevadas.

Las consecuencias de lo anterior hacen fácil preveer que NVIDIA está llegando al límite de lo que pueden hacer en un solo chip para su siguiente generación de GPUs, tanto por factibilidad como por costos. ATI entendió esto desde hace un buen tiempo y optó por una solución inteligente: GPUs menos complejos, más económicos y más manejables, lo cual incluso les permite atacar el mercado de la gama alta de una forma más costo-eficiente empleando tarjetas de video con dos GPUs. Si se sigue la lógica, el GPU de siguiente generación de NVIDIA debería estar basado en una nueva arquitectura que diste del actual G80 y GT200. Esta nueva arquitectura debiese ser desarrollada de forma radicalmente diferente para mitigar los problemas actuales que hacen muy difícil que sea factible que nuevamente se duplique el numero de transistores (estaríamos hablando de más de 2.800 millones) y que el tamaño del chip se pueda fabricar con costos razonables. Para ello hay tres caminos posibles:

* Usar el mismo modelo de ATI, en donde la gama alta la dominan tarjetas de video con más de un GPU.
* Desarrollar las unidades funcionales de la arquitectura en varios chips como lo hacía antes 3dfx (ejemplo: un chip para shaders, otro para ROPs y otro para visualización de imágenes).
* Una nueva arquitectura muy diferente a lo que estamos acostumbrados que permita crear GPUs más poderosos con aumentos marginales en la cantidad de transistores en cada generación.

Chip con doble personalidad

Con el lanzamiento del G80, NVIDIA no solo introdujo su primer GPU con shaders unificados, sino que también invirtió fuertemente en otros usos para el increíble poder de cálculo de este. Fue así como la empresa desarrollo CUDA, una herramienta única que permite desarrollar aplicaciones que emplean lo mejor de las características de los GPUs y CPUs para que estas sean aceleradas a niveles impensados.


Para entenderlo, NVIDIA plantea el ejemplo siguiente: para valorar el mercado estadounidense de opciones (derecho a comprar o a vender un commodity en una fecha específica) completo se requieren de 600 CPUs (no especifican modelo) usando los métodos tradicionales. Con CUDA, solo se requiere un servidor con 8 núcleos y 12 GPUs (G80) para realizar los mismos cálculos. Considerando aspectos de refrigeración, mantención, espacio y costo de adquirir cada solución, se puede entender porque NVIDIA se siente muy segura de sí misma para enfrentar el futuro.

Con este ejemplo se puede entender como NVIDIA invirtió tiempo en el desarrollo el GT200 no solo como un GPU sino como un chip masivamente paralelo, (lo cual la empresa define como ‘Compute Architecture’ y ‘Graphics Architecture’) y eso lo muestra claramente la arquitectura:


Características comunes



Como se puede ver arriba el chip se divide en 4 partes principales que se explican a continuación:

1. Manejo de hilos (threads)

En la arquitectura unificada de NVIDIA no existen unidades específicas que cumplan las funciones de por ejemplo, pixel shaders o vertex shaders o cualquier otro conjunto de instrucciones. La forma como se procesan estas instrucciones es por medio de unidades que asignan hilos atadas a su característica y son enviados a los streaming processors a ser procesados. Por ejemplo, si se va a procesar un programa de pixel shader, la unidad de pixel shader crea los hilos marcados con esa función para ser procesados posteriormente. Las diferencias de esta unidad entre su modo computacional y su modo gráfico se verán en el siguiente apartado.

2. Area de procesamiento principal

La versión resumida de esta historia dice lo siguiente: en esta área del GPU se encuentran los procesadores de hilo (streaming processors o SP) que son agrupados de 8 en 8 en multiprocesdores de flujo (streaming multiprocessors o SM) los cuales incluyen elementos adicionales dependiendo de si se usa el chip en modo computacional o gráfico. Finalmente, los SMs están agrupados de a 3 en grupos de procesamiento de hilo (thread processing clusters o TPC) que adicionalmente incluyen las unidades de texturización y el cache L1 - de primer nivel - compartido. Teniendo en cuenta que hay 10 TPCs en el GPU podemos llegar a esta sencilla ecuación: 10x3x8= 240. Este número representa la cantidad de SPs (núcleos de procesamiento del GPU) que posee la arquitectura, un salto considerable con respecto a los 128 SPs (8 TPC x 2 SM x 8 SP) del G80. Como se pueden dar cuenta, este solo párrafo es para marear a cualquiera, por eso el Departamento Didáctico de CHW gasto miles de horas en Photoshop para llegar a esta obra de arte:


Si consideramos que hay 10 de estas unidades, es más fácil visualizar donde están los 240 SPs. Ahora, haremos un breve resumen de las características de todas estas unidades:

* Cada TPC usa una arquitectura de ejecución MIMD (multiple instruction multiple data). Esta es una técnica para lograr paralelismo que permite que cada SP funcione de forma asincrónica e independiente, es decir, en cualquier momento cada SP puede estar ejecutando distintas instrucciones en diferentes fragmentos de datos.
* Cada SM usa una arquitectura de ejecución SIMT (single instruction multiple thread). Esta técnica permite crear, manipular, agendar y ejecutar hilos de forma más rápida y eficiente que utilizando la técnica SIMD. Esto se da debido a que bajo SIMD, si el vector es menor al tamaño que se ha estipulado para la unidad SIMD el rendimiento se reduce. Así es que ocurre lo que es sabido del R600, el cual aun cuando según ATI dicen que tienen 320 SPs, la efectividad de ellos puede variar entre 64 y 320.

* La unidad de SIMT en cada SM crea, manipula, agenda y ejecuta hilos en grupos de a 32 de ellos lo que se llaman warps , con un máximo de 32 warps por SM (con un total de 1024 hilos por SM) a comparación de los 24 warps (768 total por SM) de 8800GTX. Al final se pueden estar manipulando simultáneamente en el chip 30720 hilos simultáneos. Con ello, aumenta la cantidad de hilos procesados por SM simplemente por ser una arquitectura más refinada aparte de su aumento en el GPU derivado de la mayor cantidad de SMs y TPCs. Adicionalmente el GPU tolera la latencia muy bien porque si un hilo se demora en accesar la memoria, se puede hacer un cambio a otro hilo sin incurrir en una penalidad de tiempo.
* Se duplica el tamaño del archivo de registro local (LRF), lo que permite que se puedan ejecutar dentro del GPU programas de shaders más grandes sin tener que hacer swap (lo que disminuye rendimiento).
* Los SPs no han cambiado en su forma de ejecutar instrucciones pues siguen ejecutando dobles operaciones MAD (sumar y multiplicar) los cuales son ayudados por unas unidades especiales (Special Function Unit o SFU) que pueden ejecutar una operación MUL (multiplicación) adicional. Sin embargo la eficiencia de ejecución de MAD + MUL si se mejoro con lo cual aumenta el poder de cómputo del GPU.
* En cada SM se incluye una unidad de instrucciones (IU) encargada que entrega las instrucciones que ella recoge del cache de instrucciones.
* Los 16KB de memoria local de cada SM son compartidos por el grupo de 8 SPs en su interior para evitar hacer búsquedas de datos fuera de la unidad.
* Algo muy interesante que NVIDIA está reconociendo es que el GPU soporta operaciones flotantes de 64-bit de precisión - llamado doble precisión - en una pasada sencilla, requeridos para muchas aplicaciones especialmente para el procesamiento de datos (modo de cómputo) que requieren resultados de alta precisión matemática. Esto sin embargo penaliza el numero de núcleos utilizables de 240 a 30 (cada SM se convierte en un núcleo) entregando 90 gigaflops los cuales equivalen a un Xeon de 8 núcleos. NVIDIA se ha caracterizado por mostrar lo poderoso que es su GPU en modo de cómputo mostrando aumentos de rendimiento con respecto a CPUs de 10, 50 y hasta 150 veces, pero acepta que la merma de rendimiento es muy considerable cuando el GT200 trabaja con precisión de 64-bit.
* Con respecto al rendimiento de texturas, el GT200 rinde de forma similar al G92 pues al igual que este, también tiene 8 unidades de direccionamiento de texturas (TA) y 8 unidades de filtrado de texturas (TF) a comparación de las 4 y 8 respectivamente del G80.


3. ROP

Para el subsistema de ROPs (encargados de hacer el procesamiento final de los pixeles) el GT200 adiciona dos particiones más de ellas con lo cual pasa a tener 8 ROPS a comparación de 6, lo que le permite procesar hasta 32 pixeles por reloj. Esto implica que técnicamente el GT200 debería tener un rendimiento superior al aplicar filtros (de alisado de lineas y anisotropico) en comparación a G80.

En la generación anterior, cada ROP estaba conectado a un canal de memoria de 64-bit, en esta generación se da el mismo caso, por lo que ahora el bus de memoria pasó de tener 384 bits a tener 512-bit.

Aparte de algunas otras optimizaciones menores para ciertos tipos de pixeles, los ROPs se mantienen estructuralmente iguales a los anteriores, lo cual implica que todos los modos de Anti-Aliasing / Alisado (MSAA, SSAA, AA de transparencia adaptiva y CSAA) que existían en la generación anterior, son soportados por el nuevo GPU, pero no se agregan nuevos modos.

4. Canales de memoria

Es interesante que NVIDIA habla de que se optimizaron las rutas críticas de memoria para que esta pueda operar a una velocidad máxima de 1,2 GHz GDDR3, algo que probablemente viene del G92 pues la velocidad de las memorias en la GeForce 8800 GTX era de 900MHz, que luego subieron a 1080MHz con la GeForce 8800 Ultra y posteriormente a 1100MHz con la GeForce 9800 GTX. Sin embargo, esto también quiere decir que el controlador de memoria está al límite de sus capacidades para GDDR3. NVIDIA cuando tuvo que decidir sobre que tecnología de memorias tendría para su siguiente GPU, decidió ser conservador manteniendo el uso de GDDR3, la cual a estas alturas está ampliamente disponible y por ende es más económica, confiando en que el mayor ancho de banda surgiría por agregar un par de controladores de memoria más en vez de depender del aumento de frecuencia de la memoria. La decisión tomada por la empresa es muy razonable pues disminuye los costos de investigación y desarrollo de un nuevo controlador de memoria, mientras se toman una mayor cantidad de tiempo en hacer las pruebas correspondientes para desarrollarlo y optimizarlo al mismo tiempo que disminuyen los costos por tarjeta de video armada.

También, NVIDIA hizo algunos ajustes en la razón o ratio de ancho de banda entre las texturas y la memoria para que esté más acorde a las cargas de trabajo actuales y futuras y así mantener a las unidades de textura siempre trabajando pues siempre los datos están disponibles.

Por otra parte, se aumentaron en 6 veces la cantidad de estructuras internas para los buffers de salida lo que hace que las operaciones de los shaders de geometría y las operaciones stream out (útiles para modo cómputo) sean considerablemente más rápidas que las del G80 y un poco más rápidas que las de la Radeon HD 3870 X2. Esto es destacable, porque en las pruebas de rendimiento que utilizaban shaders de geometría eran consistentemente más lentos los GPUs de NVIDIA. Siendo que la arquitectura del G80 tenía un rendimiento superior en todas las pruebas de rendimiento vistas en benchmarks y análisis (en donde no se emplean mucho los shaders de geometría pues estos solo fueron recién introducidos con DirectX 10 y las arquitecturas compatibles de NVIDIA y ATI) la empresa se aseguro de corregir una de las pocas cosas en la cual estaba en franca desventaja con la competencia.

Diferencias de personalidad

Como se había comentado anteriormente, el GPU puede trabajar en modo de cómputo y en modo gráfico. Ahora, eso no significa que como en el caso de la SoundBlaster X-Fi se deba cambiar de un modo a otro dependiendo de la actividad que se realice, al contrario, gracias a su arquitectura modular y paralela, el GT200 no tiene inconvenientes en procesar algunas instrucciones de cómputo y otras de gráficas (por ejemplo un juego usando 3/4 de los shaders para gráficas y el cuarto restante para cálculos de física). Esta buena noticia se debe precisamente a que se habla de una arquitectura unificada en donde un hilo de vertex shader se crea tan fácil como un hilo de cómputo. Lo que si cambia, son las unidades activas y su funcionalidad dependiendo del modo que se use, por eso acá presentamos una pequeña tabla que resume las diferencias que existen entre cada modo:

Volviendo al principio de este articulo, ahora es más fácil comprender toda esa cantidad de datos estadísticos que han determinado las capacidades del GT200. Ahora solo falta hacer un resumen de lo que es capaz de hacer el nuevo GPU de NVIDIA con respecto al G80:

El GT200 vendrá en dos versiones, el modelo GTX280 y el modelo GTX260. Al igual que en la generación pasada, la diferencia entre cada modelo radica en las velocidades de reloj, en que se deshabilitan dos TCPs completamente, lo que implica que disminuye el número de shaders y se deshabilita un ROP. Con eso se tiene lo siguiente:

Dame todo el power

Dame todo el powerComo fue comentado anteriormente, debido a la complejidad de este GPU, su consumo eléctrico esta por las nubes llegando a disipar 100 watts más que el Core 2 Extreme QX977x. Es cierto que técnicamente se puede hablar de que el rendimiento por watt fue incrementado en una buena medida con respecto al G80, pero esto no quita el hecho de que estamos frente a un GPU cuyo consumo eléctrico resulta excesivo. NVIDIA lo sabe y por ello decidió tomar cartas en el asunto e intentar reducir el consumo eléctrico del GT200 cuando este no tiene que trabajar a carga completa. Para ello, implemento una serie de tecnologías que controlan este aspecto.

Por una parte, el GPU tiene varios modos de uso que van desde 2D hasta Hybrid Power que permiten reducir drásticamente el gasto innecesario de electricidad. Los modos implementados y su consumo son:

* Hybrid power, el cual apaga el GPU por completo cuando la tarjeta está instalada en una placa madre con chipset NVIDIA que tenga un GPU integrado (Consumo: 0W)
* Idle, modo 2D (Consumo: 25W)
* Reproducción Blue-ray (Consumo: 35W)
* Full 3D (Consumo: peor de los casos 236W, pero varia de acuerdo a carga y frecuencias)


Adicionalmente, el GT200 emplea una tecnología similar a speedstep de Intel en donde el reloj y voltajes se ajustan dependiendo de la carga y uso de GPU gracias a varios monitoreadores de actividad dentro del chip. No solo esto, también se pueden apagar bloques completos del GPU cuando no están siendo utilizados.

Es bastante positivo que NVIDIA haya considerado implementar más formas de restringir el consumo eléctrico que en cualquier otro diseño previo, pues estas partes suelen ser las que más malgastan electricidad en un computador al tener un manejo muy pobre de consumo eléctrico cuando la mayoría del tiempo las funciones del GPU están sin trabajar.

NVIDIA PhysX

En febrero de este año, NVIDIA anuncio la adquisición de AGEIA, la empresa responsable del API PhysX empleado para cálculos de propiedades físicas. Esta empresa ha dado mucho que hablar con su API y su famoso acelerador de física (PPU). Aun cuando sus productos permitían nuevos niveles de realismo en los juegos y pintaban como un buenos candidatos a ser una gran tecnología, desde la fundación de la empresa era poco visible el progreso de sus desarrollos. Por una parte, aun cuando muchos juegos habían implementado el API en sus motores (ejemplo Unreal Engine 3) los efectos que lograron impresionar a muchos no hicieron actos de presencia en los juegos. Esto se debió principalmente a que los desarrolladores de juegos implementaron funcionalidad física básica pues no existía (ni existe) la masa crítica de PPUs para desgastarse en desarrollar efectos que requieran aceleración por hardware.

Esto está por cambiar con el lanzamiento del GT200, pues en pocos días verá la luz un driver para GPUs unificados con soporte para PhysX. Como fue mencionado anteriormente, una gran característica de un chip gráfico unificado es que se pueden procesar hilos de gráficos e hilos de datos simultáneamente. Siendo que los cálculos de física dependen de chips que calculan datos masivamente paralelos, los GPUs de NVIDIA son perfectos para procesarlos. NVIDIA plantea el ejemplo de que por medio del uso del GPU se pueden acelerar en más de un 1200% los cálculos físicos tales como fluidos, cuerpos blandos y telas a comparación de un Core 2 Quad.

Dos detalles muy interesantes de esta tecnología que explicó NVIDIA tienen que ver con la escalabilidad de la física presentada en pantalla y el soporte por parte de los desarrolladores. Para el primer caso, uno de los grandes interrogantes (y retos) que se tenía con respecto a la física era su escalabilidad, es decir, la posibilidad de graduar el nivel de detalle dependiendo del hardware que se tuviese disponible, tal como se ha hecho con las opciones de gráficas en los juegos. Este problema ha sido resuelto por medio de un plugin que permite crear diferentes módulos en los cuales se manipulan distintas propiedades físicas (ej. un módulo para simulación de vegetación, otro para objetos que se pueden destruir, etc.) y en donde cada módulo se puede graduar al nivel de detalle que se desee. Este elemento es muy relevante pues permite a los desarrolladores mayor flexibilidad a la hora de implementar física en los juegos para que corran en la mayor cantidad de hardware posible.

La segunda cosa interesante es que en la presentación de NVIDIA se menciona que el API de PhysX está presente en todas las consolas de última generación (Sony Playstation 3, Microsoft Xbox 360 y Nintendo Wii). Lo relevante de este dato es que dada la batalla que se va a liberar en el campo de los APIs de física (donde compite el Havok de Intel, el cual fue anunciado que será soportado por AMD) resulta de importancia crítica que exista una gran mayoría de desarrolladores que hagan sus juegos basados en una sola API para que esta gane la guerra. Por ejemplo, si EA va a utilizar física en su última versión de FIFA, lo ideal es que se pueda compartir el código entre la versión del juego para cada consola y para PC. Que mejor saber que hay un solo API para programar en múltiples plataformas disminuyendo así los costos de desarrollo de cada juego. Sin embargo, Havck es un API consolidado con mucho soporte por parte de los desarrolladores, eso sin contar que cuentan con todo el aparataje de promoción de Intel lo que hace que esta guerra sea muy dura así que cualquier ventaja que se pueda obtener es clave.

Conclusiones

Como se pudo ver, estamos en presencia de una arquitectura muy poderosa y extremadamente compleja que en el papel pareciese que rinde de forma notable. Pero así como tuvimos el agrado de analizar este nuevo GPU, también pudimos ver que estamos ante una era de grandes cambios.

Por una parte, NVIDIA está promoviendo de forma muy fuerte el poder computacional de sus 240 procesadores de shaders por medio de CUDA. Desde cálculos financieros complejos hasta un cliente de Folding@Home extremadamente rápido, pareciese que las opciones son ilimitadas.

Recuerdo que hace un par de años AMD había anunciado su plataforma abierta Torrenza que dejaba a otras empresas usar distintas tecnologías de AMD - incluyendo Hypertransport - lo que permitía agregar aceleradores especiales muy fuertemente asociados al CPU. En esas épocas la empresa nos ponía a imaginar en una placa madre con dos zócalos de CPUs AMD en donde uno efectivamente se instalaba un CPU de la empresa, mientras que en el otro se instalaba un chip acelerador. Esa brillante idea daba para todo, aceleradores de física, aceleradores de cálculos matemáticos complejos, aceleración de procesamiento de medios, en fin lo que uno quisiera. Era tan atractiva la iniciativa que poco tiempo después Intel anunciaba un proyecto similar pero basado en PCI Express 2.0 llamado Geneseo.

Pasó el tiempo y nunca se supo mucho más de ninguna de esas dos tecnologías. Mientras tanto, este año NVIDIA ha anunciado que aplicaciones tan conocidas como Photoshop utilizaran al GPU para acelerarlas, Folding@Home ya es una realidad en GPUs ATI y pronto lo será en los de NVIDIA, han anunciado productos comerciales que permiten codificar video más allá que en tiempo real con la ayuda de un GPU, pronto llegara PhysX y adicionalmente ya hay aplicaciones comerciales que requieren de cálculos matemáticos extremadamente complejos, como simulaciones sísmicas para encontrar petróleo y simulaciones de dinámica molecular entre muchas otras. Suena a lo que nos prometían y todavía no cumplen AMD e Intel, lo mejor de todo NVIDIA lo está logrando empleando una sola herramienta común CUDA. Jen-Hsun Huang tiene razón para sentirse muy confiado, el potencial de sus GPUs es enorme. Dependiendo de cómo juegue sus cartas la empresa y como reaccionen los competidores, podríamos estar ante el nacimiento de un estándar de procesamiento muy fuerte tal como lo es x86. Pero para que esto pase falta una enormidad de tiempo y hay factores mucho más terrenales que resolver ahora.

La arquitectura del GT200 probablemente puede ser una de las últimas que se puedan desarrollar como un chip monolítico. La cantidad de componentes está avanzando a un ritmo mucho más alto que su miniaturización siendo el fiel reflejo de eso el enorme tamaño del GPU. Las leyes de la física pronto alcanzarán a esta forma de desarrollar estos chips, por lo que hay que pensar diferente, muy diferente tal como lo hicieron aquellos que soñaron en que la forma ideal de procesar gráficas en tres dimensiones era por medio de chips especializados y no dependiendo del CPU u optimizaciones a este tales como MMX.

Factores de mediano plazo (para la industria tecnológica) como el mencionado anteriormente deberán ser ejecutados con precisión para que en el largo plazo, se cumplan objetivos como que CUDA y el GPU sean un estándar de la industria en cuanto a procesamiento de datos paralelos se trate. Esto para fortalecer aun más a la empresa posicionándola como una de las que más influencian el mercado de la tecnología. Estratégicamente NVIDIA ha jugado una buena mano, pero Intel y AMD tienen mucho que decir y hacen faltan muchos años para el desenlace de esta historia. Así también, falta ver si esta estrategia, de la mano con los resultados de rendimiento real del GT200 es un paso correcto hacia esa dirección y para eso, tendrán que leer nuestro análisis de rendimiento.

(c) ChileHardWare URL ORIGINAL

viernes, 20 de junio de 2008

ATi HD 4850 a la venta


Pues al parecer ATi no pudo esperar mas y el dia de ayer lanzo a la venta su tarjeta de nivel medio que owneea a la 9800 GTX segun rumores pero que no alcanza a la GT200 de nvidia pero lo que ofrece es un precio mas copetitivo que la solucion de nVidia ya que esta fue lanzada la semana pasado pero a un precio poco adsequible a diferencia de la solucion de ATi que rondara los 200 dolares, en contraparte de la GT200 que rondan mas de 400 dolares, bueno la nota a continuacion de parte de fudzilla.

Debido a que ya se podía comprar la Radeon 4850 en la mayoría de los países de Europa, alguien en AMD decidió eliminar el NDA y lanzar la Radeon 4850 hoy, es decir Ahora!

Hemos aprendido que si tienes una Radeon 4850 y has obtenido alguna puntuación, a AMD no le importara si los posteamos. Sin embargo, la presentación de la Radeon 4870 se mantiene para el Miércoles 25 de este Mes, esto se ha comprobado con un alto rango de ATI / AMD, si tienes dudas habla a AMD y confírmalo xD. Miles de Radeon 4850 ya han sido vendidas en las tiendas y no hay forma de controlar esto.

Hemos aprendido que las tiendas reciben loas tarjetas de 1 a 3 semanas antes esperando el OK de ATI.

Al parecer el lanzamiento fue adelantado por la presión de los usuarios que se han dedicado a hacer llamadas y ejercer presión para que se adelante el lanzamiento ya que parece que esta serie de ATI es de lo mas deseado por su bajo precio e increíble rendimiento.

sábado, 23 de febrero de 2008

nVidia GeForce 9600GT G94

Hoy es el día señalado para el lanzamiento de la nueva gama de chips gráficos G-94 de NVIDIA, que competirá en la gama media con la AMD/ATI Radeon HD 3850/70 con un precio recomendado entre 170 y 190 dólares.

La unidad de procesamiento de la nueva 9600 GT corre a 650Mhz, 1625MHz para las unidades de Shaders y memoria a 1800Mhz efectivos con un ancho de banda de 57.6 GB/s y 505 millones de transistores. Tiene soporte para PCI Express 2.0, DX10 y SM 4.0, OpenGL 2.1 y PureVideo HD. En principio con 512 Mbytes de memoria GDDR3, aunque se han anunciado modelos con 256 y con 1 Gbyte.

Las primeras pruebas de rendimiento que hemos podido leer confirman que noquea sin compasión a la que podríamos considerar la tarjeta que va a sustituir, la NVIDIA 8600 GTS, empatando incluso con la 8800 GT de 256 MB y superándola con el antialising activado.

Frente a la verdadera competencia, las AMD/ATI HD 38xx, la 9600 GT supera en un 15% a la HD 3850 con la misma cantidad de memoria, 512 MB. Sin embargo se ve superada en un 5% por la HD 3870 siempre que no se active el antialising donde la NVIDIA es superior.

En definitiva, que el mercado de las gráficas de gama media (la más disputada) se anima considerablemente con la apuesta de NVIDIA y la rebaja de precios anunciada por AMD/ATI.

jueves, 31 de enero de 2008

ATi Radeon HD 3870 X2 (R680)

AMD hace un nuevo intento por quedarse con el trono de la tarjeta más rápida del mercado con la Radeon HD 3870X2, una placa basada en dos procesadores gráficos, un millón trescientos treinta y tres mil transistores y un gigabyte de memoria RAM.

Desde la salida al mercado de la Radeon HD 2900XT, AMD se siente en deuda. Deuda con el segmento de mercado que más orgullo trae a las compañías gráficas, el de las tarjetas de vídeo tope de linea, con precios estratosfericos y - cuando cumplen su función - rendimientos impresionantes. En su momento la Radeon HD 2900XT cargo con un estigma, y fue su gran consumo eléctrico; si bien su rendimiento era superior a la generación pasada de la misma marca, la oferta de NVIDIA tenia un mejor rendimiento, y la suma de mayor consumo y menores cuadros por segundo, la hizo un producto para olvidar rápidamente.

Más tarde, AMD logro superar su problema de consumo miniaturizando su proceso productivo y pasando de los 80nm de R600 - el procesador gráfico de la Radeon HD 2900XT - a 65nm con el RV670, un derivado de menor consumo y disipación de R600.

Sin embargo su arquitectura carece de potencia comparativa al exitoso G80 o su refresco en 65nm, G92. Por lo tanto, y ante la carencia de una nueva arquitectura, no le queda más que aumentar la frecuencia de sus procesadores gráficos e incluir dos de ellos en un mismo PCB.

Pero esto no es del todo sencillo, pensar en una tarjeta con dos procesadores gráficos es como pensar en un automóvil con dos motores. Puede ser más costoso, más pesado y más complejo, pero no necesariamente más rápido.

lunes, 19 de noviembre de 2007

ATi Radeon HD 3800 series RV 670 review by ChileHardware

Bueno aunque mañana es el lanzamiento mundial o la liberacion NDA en algunos paises, llega por parte de AMD/ATI la tarjeta que sera la competencia de la 8800 GT que aunque no llega a su poder en la parte economica parece ser que es su fuerte y el stock de al menos la 3850 es mejor que el de la 8800 y la 3870 y esto se debe a su produccion masiva y parece una buena opcion de compra.

Toda acción tiene una reacción, y si NVIDIA lanzó su GeForce 8800GT hace dos semanas, hoy AMD hace lo suyo con las Radeon HD 3850 y 3750, las nuevas tarjetas gráficas de gama media-alta del fabricante verde-rojo. En esta análisis veremos donde se posiciona en cuanto a rendimiento y características.
El actual mercado de las tarjetas gráficas ha estado algo movido desde la aparición de AMD dentro de la eterna guerra de NVIDIA y ATI. Las cosas parecen haber cambiado un poco, al menos en la forma en que ambas compañías enfrentan el mercado.

ATI y NVIDIA antiguamente tendían a competir con reglas claras, algunas que incluso parecían bandas de precios, aun cuando las batallas en rendimiento eran totalmente encarnizadas parecía haber un acuerdo de caballeros para nunca tocar los rangos de precio, ni las formas de llegar a los consumidores. Podía ganar una marca o la otra, pero siempre pareció no haber mucha especulación en cuanto a los precios o los segmentos a los cuales sus productos iban enfocados.

Sin embargo desde la entrada de AMD, un jugador - en este entonces - con mayor presencia que las compañías desarrolladoras de chips gráficos, las cosas han tendido a cambiar en cuanto a esta forma de funcionar.

AMD recibió a ATI cuando la ultima ya estaba desarrollando el polémico chip R600, sin embargo este no estaba libre de problemas, por un lado los secuaces rojos tenían serios problemas para sacarlo a la luz, y aun cuando lo logro finalmente, su rendimiento no lograba siquiera acercarse al de la competencia. Ante este escenario, AMD recurrió a sus mejores contactos y aun cuando perdieron la batalla del rendimiento en esa ocasión, se comenzó a esbozar una guerra no vista antes en el mercado de las tarjetas gráficas, una guerra en la cual AMD ya ha sabido pelear antes, la guerra de precios y ensambladores.

Es así como en la actualidad la linea Radeon HD 2000 no ha sido el fracaso que muchos piensan es, sino más bien, una linea que se ha vendido muy bien. No hablamos de la Radeon HD 2900 XT, ni siquiera de la Radeon HD 2600 XT, estamos hablando de los modelos de entrada, que han sido muy demandados por ensambladores como Dell, HP y Acer.

Pero ya ha pasado algún tiempo desde el lanzamiento de estas tarjetas, y hoy es hora de un refresco. Con la salida de las actuales HD38x0, AMD gracias a sus influencias como empresa de mayor envergadura, logró cerrar un acuerdo con TSMC a largo plazo, para fabricar sus GPU a un proceso de fabricación más avanzado - 55nm - esto les significa el poder generar procesadores gráficos más pequeños, con menor consumo pero fundamentalmente mas baratas, casi la mitad de lo que costo en su momento fabricar las Radeon HD 2900 XT.

Producto de esta guerra a lanzado un excelente producto como es el G92, pero sin embargo con problemas de stock, que según algunos tendrían que ver con la canibalización de sus propios productos frente a este nuevo integrante de la familia. Este es un error esperable teniendo en cuenta la poca experiencia de NVIDIA en este tipo de terrenos donde AMD ya lleva años de circo compitiendo con el más grande de todos, Intel.



Barniz Técnico

Como ya sabemos las nuevas tarjetas de ATI traen consigo un die-shrink, es decir, un cambio de proceso de fabricación a uno más pequeño, 55nm proporcionado por TSMC.
Este die-shrink mantiene la misma arquitectura con un par de cambios cosméticos bastante sutiles, sin embargo lo mas importante de este nuevo proceso de fabricación, es la disminución del tamaño del GPU, con una superficie total de 192mm2 con 666 millones de transistores, un poco menos de la mitad del R600 408mm2 de superficie y alrededor de 720 millones de transistores. G92 por su parte llega cerca de los 315mm2 de superficie con 734 millones de transistores, bastante mas grande que RV670 y por tanto mas caro de producir.

En la arquitectura del chip, nada ha cambiado mucho, sigue estando basado en una arquitectura unificada con 320 shaders processors pero con la posibilidad de poder trabajar a doble-precisión en cálculos decimales (de coma flotante) fundamental para los procesos basados en GPGPU, esto significa trabajar con datos de hasta 128 bits (precisión simple es 64-bit) por paso sin mayor esfuerzo, cosa que por el lado de NVIDIA solo G92 puede realizar pero trabajando solo con la mitad de la capacidad de proceso.

La inclusión del motor de aceleración de vídeo de alta definición por hardware UVD también viene integrado en el chip, lo cual se agradece ya que la HD2900XT carecía de esta característica y solo hacia el proceso por software.



Por otro lado la interfaz de memoria se ve disminuida en el caso de la RV670, a solo 256-bit de ancho de banda, la mitad que R600 que puede manejar hasta 512-bit, lo cual dependiendo del grado de optimización podría penalizar el rendimiento a resoluciones altas o con gran carga de filtros.

Quizás la implementación más importante a nivel de soporte en hardware es el estándar DX10.1, el que trae consigo algunas pequeñas modificaciones:

Cube Map Arrays: Permite leer y escribir múltiples Cube Maps en un solo paso, lo que permite Iluminación global compleja y dinámica en tiempo real, entre los que se cuentan efectos de calidad Ray-tracing como soft-shadows, refracciones y reflexiones transparentes de alta calidad.

Vertex Shader in & out: Dobla la cantidad de información manejada por los vertex de 16 a 32 valores por shader lo que permite mejor rendimiento en situaciones de vertex complejas.

Improved Antialiasing: Se agregan varias modificaciones que permiten estandarizar el método de aplicación de filtros para todas las GPUs, ademas de dar control sobre la programación de este para manejar los niveles de antialiasing de forma dinámica sobre una escena o parte de la pantalla, esto significara dar mejores características de filtrado dependiendo de la posición en que se encuentre el objeto pero sin perder nitidez en la imagen, ademas potencia las posibilidades para FSAA+HDR.

Puedes leer el documento DX10.1 de ATI aqui.

Sin embargo todas las modificaciones DX10.1 no son aplicables inmediatamente a los juegos actuales, primero porque la actualización para Windows Vista estará disponible para el SP1 que saldrá el próximo año y segundo por que es necesario que los desarrolladores le den soporte para empezar a ver los beneficios de esta pequeña corrección, así que en el corto plazo no esperen mucho de DX10.1.

En cuanto a los drivers, podemos agregar que ATI optimizo estas tarjetas para trabajar en 3 diferentes configuraciones de reloj para ahorrar energía, 2D, 3D de bajo requerimiento y máximo 3D aparte de dar soporte para quad-CrossFire, también permitirá tri-CrossFire, y configuraciones multiGPU con tarjetas diferentes pero de la misma familia, por lo que es posible hacer CrossFire entre la HD3850 y la HD3870.

Primera Mirada: Radeon HD 3850

La Radeon HD 3850 es un modelo de tarjeta gráfica con una solución de refrigeración que ocupa solo una ranura PCI. Esto habla bien de su generación de calor en primera instancia y debemos decir, es definitivamente un resultado más elegante que un sistema de doble ranura.

Para aquellos con buena memoria y que están al tanto de la Radeon X1900Pro, podrán notar que esta placa de vídeo - HD 3850 - es bastante similar a la primera.

En conectividad nos encontramos con la salida para televisión y con dos conectores DVI que permiten no solo conectarlo a monitores de este tipo, sino también análogos y aquellos compatibles con HDMI, mediante el uso de un adaptador.



Más atrás del sistema de refrigeración nos encontramos con un disipador para los reguladores de voltaje. Este pareciera ser pasivo en una primera instancia, pero se ve ayudado por el único ventilador incorporado en la tarjeta. Así mismo podemos notar que su diseño es bastante singular, se trata de cilindros en forma vertical, una propuesta que no veíamos desde hace ya mucho tiempo, cuando los fabricantes de sistemas de refrigeración aun estaban en etapas de desarrollo bastante tempranas.



En su reverso nos encontramos con lo de siempre, un sub-mundo de componentes soldados y un sistema de anclaje trasero para el disipador de calor.

Tal como su gemela - físicamente hablando - la Radeon HD 3850 posee dos conectores CrossFire internos. Esto le permite ser conectada con otra tarjeta, y así disfrutar el poder de dos procesadores gráficos en una sola escena.



Ya que estamos ante una muestra para prensa muy temprana, recibimos la tarjeta como es costumbre, envuelta en mucho plástico con burbujas de aire y una caja sin dinosaurios, héroes o elfas. Aun así nos encontramos con el famoso adaptador de DVI a HDMI, uno para convertir el DVI a salida análoga y un puente CrossFire. Ustedes se preguntaran, ¿porque solo un puente CrossFire cuando esta trae dos conectores para este propósito? La respuesta es sencilla, cuando compras dos tarjetas, cada una trae un conector, con eso tienes los dos necesarios para que CrossFire corra a todo su potencial.



Tanto la Radeon HD3850 como la 8800GT poseen el mismo largo y tamaño de ranura sencilla, sin embargo el diseño del disipador es algo más inteligente en el caso de ATI, ya que posee una entrada de aire un poco mas grande en relación al ventilador, lo que deja trabajar al ventilador menos forzado y aminora el ruido.



El disipador por otro lado es bastante simple, de aluminio anodizado, se ve bastante pequeño pero cumple a cabalidad su cometido manteniendo las temperaturas bajo los 60º a máxima carga incluso con overclock y manteniendo un bajo ruido.


La tarjeta desnuda se ve más simple de lo que esperábamos, a diferencia de otras tarjetas de la misma marca, pareciera todo estar dispuesto sin problemas de espacio.



Llama la atención la simplicidad del sistema de poder, solo 4 fases de poder, ademas trae consigo capacitadores tradicionales mezclados con los de estado sólido, esto seguramente se debe a la importancia del ahorro en costos pero también a que la tarjeta no requiere grandes implementaciones de poder para trabajar a sus anchas, recordemos que en el caso de la HD3850 podría funcionar incluso sin conexión externa de poder en placas con PCI-Express 2.0

En la foto también puede verse -aunque no leerse- una memoria GDDR3 de 1.1ns.



Como podemos percatarnos el GPU es bastante pequeño, el proceso a 55nm termino haciendo al chip bastante más pequeño en relación a la HD 2900 XT, sin duda AMD estará un poco más tranquilo de estar menos presionado en cuanto al costo por GPU.



Primera Mirada: Radeon HD 3870

La Radeon HD 3870 posee un sistema de refrigeración de doble ranura que se asemeja bastante a aquellos que vimos con la salida de la Radeon HD 1950XTX. Un sistema basado en heatpipes y acrílico semi-transparente bastante atractivo se encarga de enfriar no solo el procesador gráfico, sino también memorias, reguladores de voltajes y básicamente la tarjeta gráfica completa.



En conectividad nos encontramos con lo usual, dos puertos DVI - convertibles a HDMI - y una salida para televisión de alta definición. Así mismo y debido a su naturaleza de "doble ranura", nos encontramos con una rejilla que permite que el sistema de ventilación arroje el viento caliente fuera del gabinete y no contamine la temperatura al interior del mismo.





En su reverso nos encontramos con la placa de sujeción del sistema de refrigeración que en este caso solo consiste en un sistema muy sobrio ya ocupado en el pasado por el departamento gráfico de AMD. Esto permite que la tarjeta sea bastante más liviana que su hermana mayor, Radeon HD 2900 XT.



Acá pueden ver la diferencia en el reverso de la Radeon HD 3870 y la HD 2900 XT, esto equivale a bastante peso menos sobre tu gabinete.



Nuevamente la fotografía comparativa, Radeon HD 2900 XT a la izquierda y la nueva Radeon HD 3870 a la derecha.



El conector de alimentación externo de la HD 3870 es de solo 6 pines, a la derecha vemos el de la Radeon HD 2900 XT que necesita de dos conectores de 6 pines y para mayor estabilidad uno de 6 y otro de 8 pines. Como pueden ver, la reduccion en el proceso productivo se hace presente y al parecer funciona, ya que la tarjeta gráfica necesita de menor alimentación para correr adecuadamente.



Los mismos accesorios con los que nos encontramos en la Radeon HD 3850, un adaptador DVI a HDMI, uno DVI a análogo y el puente CrossFire. Los accesorios incluidos dependen exclusivamente del fabricante que elijas a la hora de llevar tu tarjeta, tal como Sapphire puede incluir dos adaptadores y tres juegos, PowerColor puede decidir incluir tres adaptadores, un chocolate y una polera.



Una vez desmontado el sistema de refrigeración, vemos que el disipador en si, el bloque metálico de contacto esta construido 100% en cobre, aun cuando no esta basado en una solución con heatpipe, esta bien hecho al igual que la refrigeración de la anterior HD2900XT, pero bastante mas simple y pequeño.

También vemos que las memorias están disipadas junto con los mosfets de las fases de poder.



Desprendiendo el disipador del plástico rojo, podemos ver la calidad de su manufactura. En verdad, las aletas son muy delgadas, maximizando la superficie.



El chip es el mismo de la HD3850, bastante pequeño para un chip de alta gama gracias a los 55nm de fabricación.



A diferencia de la HD3850, la HD3870 incorpora solo capacitadores de estado solido y 4 fases, lo que habla de que hay cambios importantes en la estructura del PCB y por tanto no están definitivamente dentro del mismo rango de precios.

Podemos ver también el conector interno de audio, hay que recordar que las tarjetas de ATI soportan completamente el estándar HDMI, por lo que son capaces de trabajar audio y vídeo por el mismo cable.



Metodología y Plataforma de Pruebas

Hardware

Intel Core 2 Extreme X6800 @ 3600MHz
Biostar TForce 965PT
Super Talent 2x1GB 1000MHz 5-5-5-15
Nvidia GeForce 8800 GT 512MB
Diamond Viper Radeon HD 2900XT 1GB
ATi Radeon HD 3870
ATi Radeon HD 3850
Hitachi Desktar 82GB SataII
Seasonic M12 750W

Software

Microsoft Windows Vista Ultimate 32-Bit
Nvidia ForceWare 169.01
ATi Catalyst 7.10
3DMark 2006
Bioshock
Crysis Demo
Company of Heroes
Medal of Honor Airborne
Rivatuner 2.06
Fraps 2.8.2
GPU-z 0.1.1

Metodología de Pruebas

Las tarjetas que estamos por revisar son tarjetas de rango alto, aun cuando podrían no ser lo máximo (ya que podría aparecer otro ejemplar con más frecuencia), estas están entre los mejores exponentes que ATI tiene para mostrar, por este motivo decidimos apuntar directamente a resoluciones altas, partiendo de 1280x1024.
Gran parte de los gamers empedernidos que querrán comprar esta vga, ya estarán equipados con un monitor que de resoluciones generosas, y por esto sumado al potencial de estas vgas a máxima exigencia es que decidimos lanzar pruebas con filtros y sin ellos, a 1280x1024, 1600x1200 y 2048x1536.

Las pruebas con filtro fueron al estándar FSAA x4 y 16x anisotrópico, sin embargo en la prueba de Crysis preferimos omitir los resultados simplemente porque el juego es completamente injugable con estas configuraciones de filtros. Si quieren un gráfico en donde ATI y NVIDIA andan entre los 2 y 3 FPS podemos enviarlo por correo.

El overclock por su parte lo probamos de forma superficial viendo la mayor frecuencia sin artifacts en el poco tiempo que hemos tenido la tarjeta en nuestras manos, de esta manera, perfectamente quien se haga de una podría estrujarle un poco mas con algo mas de tiempo.

Finalmente, notarán que de plano hemos excluído los juegos DirectX 9 y Windows XP. Mientras hace unos meses no había más que un par de títulos que utilizaban el API DirectX 10, actualmente la constelación de juegos se ha multiplicado y aunque duela, Windows Vista se convierte en la plataforma estándar para mantenerse al día en los títulos de moda.

Pruebas

3DMark debe ser para algunos el test mas importante de todos, y aun cuando pensamos que solo es referencial, de todas formas siempre lo consideramos como un test fijo dentro de nuestra suite de test.

La 8800GT saca una ventaja clara, mientras que la HD2900XT de 1GB (la más rápida de todas las R600) se empina también por encima de los nuevos modelos, esto sin duda, es por la interfaz de memoria a 512 bits que le da algo mas de aire a la HD2900, en cuanto a la 8800GT, con shaders corriendo a 1.65ghz este test se vuelve pan comido.




Company of Heroes con parche DX10 es un juego de estrategia 3D bastante demandante, tiene varios puntos de vista dentro de la batalla, pudiendo incluso mirar todo desde una perspectiva en tercera persona.

Aquí vemos como la 8800GT se despega notablemente del resto, sin embargo va perdiendo terreno a medida que aumenta la resolucion, por su lado la HD3870 logra una mejor marca que la HD2900XT lo cual es bastante bueno tomando en cuenta el precio y el consumo eléctrico.




Pero lo que más nos sorprendió fue el hecho de que la HD3850 logra casi la misma marca de la HD2900XT de 1GB que esta a un rango de precios notablemente más alto.

Con filtros se repite la dominación por parte de la 8800GT, sin embargo la HD 3850 debido a su poca memoria on-board cae inexorablemente bajo la HD2900XT que viene con 1GB en memoria.



Bioshock debe ser uno de los títulos que esta peleando fuerte como el mejor juego del año, basado en el motor del Unreal 3, tiene todo lo necesario para hacerte pasar un buen rato y con gráficas espectaculares. Aquí nuevamente vemos como domina la 8800GT y por bastante a resoluciones bajas, a partir de 1600x1200 la cosa se empareja bastante más.



La HD3870 logra superar a su anterior representante por 1 FPS, lo cual cabe perfectamente como un empate técnico, sin embargo hay que tomar en cuenta que para AMD el fabricar la HD3870 debe ser a menos de la mitad del costo de la HD2900XT de 1GB. Bajo filtros el panorama cambia notablemente, la 8800GT pierde bastante terreno, y la HD3870 logra igualar el rendimiento a partir de 1600x1200.

Por su lado la HD3850 en el interesante duelo con la HD2900XT pierde debido a su menor cantidad de memoria. Para el caso de la HD3850 es muy probable que en algún momento los fabricantes de tarjetas lancen modelos de más MB en un futuro, lo que implicaría seguramente, el igualar en rendimiento a la HD2900XT.



Medal of Honor Airborne basado en el motor Unreal 3, es un juego que vale la pena probar, más allá de la critica, es todo lo que se podría pedir de un juego de la segunda guerra, aunque un poco corto.

El terreno se pone dividido en este juego, aquí la HD2900XT es la que logra la mejor marca, superando por poco a la 8800GT, sin embargo la HD3870 logra una marca muy similar que la mantiene dentro de un rango aceptable en relación a las otras dos.
Con los resultados de la HD3850 nos damos cuenta que la diferencia en clocks son relativamente importantes en el rendimiento a 1280x1024, pero a mayor resolucion comienza a emparejarse.



Con filtros el panorama cambio radicalmente y dio resultados imprevisibles, la HD3870 logra sobre un 30% de rendimiento extra sobre la 8800GT, superando también a la HD2900XT por un margen notable, por su lado la HD3850 aun con poca memoria a bordo logra una mejor marca que la 8800GT.

Estamos investigando estos resultados para saber si el bajo rendimiento en perspectiva, de la 8800GT, se debe a problemas de drivers u otro relacionado.



Crysis debe ser el juego más esperado del año, es el primero en soportar a cabalidad DX10 e incorporar todo el eye-candy que este nuevo API proporciona, para esta prueba ocupamos el Demo de Crysis que según los desarrolladores, aun le falta en cuanto a optimización en relación a su versión final.



Aqui los resultados saltan a la Vista, la 8800GT logra una apabullante ventaja a 1280x1024, pero nuevamente a grandes resoluciones baja el rendimiento hasta quedar debajo de la HD3870.

La HD3850 por su parte con menores clocks y menor cantidad de memoria, llega a menor rendimiento a 1280x1024 y a 2048x1536 simplemente no puede mas debido claramente a su menor cantidad de memoria.

Overclock

Como el avezado lector de CHW debe saber, el overclock es una ciencia que requiere paciencia, calma y mucha iteración. Pues bien, en esta ocasión no tuvimos nada de eso, así que lo que verán en esta sección es el resultado de una aproximación preliminar del potencial de overclock de estas tarjetas. A priori, nuestro pronóstico es que, tomando en cuenta las diferencias en cuanto a la configuración de poder para ambas tarjetas, es de esperar que la HD3850 logre menores clocks que la HD3870.

Procedimos a overclockear con Rivatuner el cual detecta bastante bien las tarjetas tomando en cuenta que aun no salen al mercado, de esta manera con Rivatuner logramos con la HD3850 pasar de los referenciales 670MHz en núcleo y 1,66Ghz en memoria, a 749MHz en núcleo y 2000MHz en memoria, lo cual no deja de ser importante, especialmente para las memorias, con esto estariamos superando la frecuencia de la HD2900XT.



En lo que respecta a la Radeon HD3870, sabemos que cuenta con memorias GDDR4 de 0,8ns, por lo cual es de esperar que supere con mucho a la HD3850 y así sucede: terminamos con una frecuencia efectiva en memorias de 1242MHz, equivalente a 2484MHz en nomenclatura GDDR4. Sin embargo, como hemos dicho antes, esperaríamos que el GPU tuviera un techo similar al de la Radeon HD3850, lo que equivale a decir que la 3870 no tiene margen de overclock. Muy por el contrario, comprobamos que pese a tener el mismo núcleo y una alimentación bastante similar, la 3870 es capaz de pegarse un salto de frecuencia en GPU hasta los 843MHz, totalizando un 8,5% de aumento en GPU y un 10,3% en memoria.



Nuestros resultados: con OC, la 3850 alcanza a la 3870 y sube un 10% redondo. En cuanto a la 3870, el 8,5% de overclock en GPU y 10,3% en memorias, nos vale un aumento de casi 7% en esta prueba. Para ser una prueba preliminar, quedamos bastante satisfechos con el aumento de rendimiento bajo overclock.



Conclusión

Tal como quisimos transmitir en el review del Core 2 Extreme QX9650, hay dos peldaños en cada etapa que la hoja de ruta de una compañía traza en el tiempo. En un peldaño renuevan la arquitectura, y en el siguiente la perfeccionan. Aunque no siempre se cumple, sí hay rasgos similares en esta secuencia que pueden observarse como vimos en Intel en el paso a los 45nm, en AMD cuando pasó del core Windsor de 90nm al Brisbane de 65nm, en NVIDIA que se está mudando a los 65nm empezando con la Geforce 8800GT y hoy, en la división gráfica ATI de AMD, que debuta en el proceso de los 55nm.

Por otro lado, resulta llamativo el ciclo de miniaturización de AMD. Tenemos que en su desarrollo de CPUs AMD va a la saga de Intel, algo que pudimos ver con el Brisbane pasando a 65nm un año después de que el Presler de la firma azul se pasara a ese proceso de manufactura, y esta semana con la familia Penryn siendo pionera en 45nm. Muy por el contrario, en la miniaturización de GPUs, una vez más ATI va un paso más adelante que NVIDIA mudándose a los 55nm y, tenemos que decirlo, con bastante éxito.

Al respecto, pudimos ver que este avance en el proceso productivo influye, y mucho, en la disipación térmica. Mientras la HD2900XT era una verdadera estufa y venía con un ventilador bastante ruidoso, las HD38xx se mantienen bastante más frescas y el ruido del ventilador es completamente tolerable. Ahora bien, uno podría pensar que esto no es mérito de los 55nm sino un problema de la 2900XT, pero también hay que notar que comparando soluciones de un solo slot, la temperatura y refrigeración de la HD3850 es mejor en todo sentido que la de la 8800GT.

Hay otro aspecto que va de la mano con la reducción en el proceso productivo, y es que permite meter más transistores en menos espacio. Con núcleos de 192mm2, AMD puede sacar más procesadores gráficos por cada oblea de silicio, y esto definitivamente redunda en el precio final del producto. Ahora bien, es difícil establecer una comparación clara entre las HD38xx y su competencia directa la 8800GT, puesto que para ambas tenemos sólo precios sugeridos o valores inflados de pre-venta. Por ejemplo, para las Radeon tenemos un precio sugerido que varía en torno a los USD 250 para la 3870, y unos USD 30 menos para la 3850. En el fondo, tenemos a la hermana mayor convertida en un producto infinitamente más conveniente que la HD2900XT con ventajas claras como la decodificación UVD, la compatibilidad PCIe 2.0, DX 10.1 y Shader Model 4.1, y todo esto a un precio bastante menos que los USD 400 de la 2900.

Pero es más: mientras el precio de pre-venta de la 8800GT de 512MB bordea los USD 300, el de la 3870 está bastante ajustado al valor sugerido de USD 250. Si me dicen que el precio final terminará siendo USD 50 menos que la 8800GT cuando ambas se encuentren a plena disponibilidad bueno, yo me lo pensaría. Mal que mal, no sé si pagaría un 20% más por una tarjeta un 15% más potente.

De la misma manera, en el caso de la HD3850 estamos hablando de una tarjeta que en el mediano plazo estará en un precio algo inferior a la 8800GT de 256MB y que la ubica a mitad de camino entre ésta y la Geforce 8600GTS, en un rango medio-alto en donde NVIDIA podría verse obligada a canibalizar sus propios productos con tal de no cederle el segmento a su rival.

Por todo lo anterior, aunque el núcleo RV670 no es, ni de cerca, la bomba de rendimiento que pueda destronar a las 8800, sí se vuelve más interesante cuando la variable precio entra en competencia, siempre y cuando la 8800GT se mantenga en los valores que se han visto últimamente en e-tailers. Estamos conscientes de que esto puede deberse a su escasez y si el valor de los modelos de 512 y 256MB baja bruscamente en Diciembre el pronóstico sería muy distinto.

Tenemos que decir, llegado este punto, que el rendimiento de las nuevas estrellas de NVIDIA y ATI está sujeto, por el momento, a drivers inmaduros, y que tanto los Forceware como los Catalyst en estado beta sólo nos dan una aproximación de lo que podemos esperar.

Lo Bueno:
- Exitoso paso a los 55nm
- Disipación térmica completamente aceptable
- Soluciones de refrigeración eficientes
- Prestaciones que su antecesor inmediato no tiene
- Mejor solución para reproducción de medios gracias a UVD y HDMI con audio.
- Sujeto a los valores que veamos en el mediano plazo, podría ser una buena alternativa en precio/ rendimiento.

Lo Malo:
- A primera vista, perder contra la 8800GT no causa buena impresión.

Lo Feo:
- La Radeon HD 2900 XT que es cara, ardiente y de mediocre rendimiento.
Ninja!
Google