martes, 15 de julio de 2008

Gaby Ramirez /Alejandra Urdiaín Revista H Extremo

Bien luego de los reviews de nuestros amigo de CHW pues viene lo bueno y el core de este blog o sea las chichis y bueno agradecemos a CF2 por subir siempre este material, y bueno este mes fue de Exxxtremo y pues la principal fue la ex reportera conductora y demas Lili Brillanti, aun recuerdo cuando era reportera XD bueno en fin esas scans me las gano elpinguino pero ni pedo y antes de irme de vacaciones pues subire el resto de la revista que se compone por Gaby Ramirez y Alejandra Urdiaín que sepa la merga quien seran pero segun el programa de chismes que andaba viendo mientras pasaban la nota del H extremo pues decian que esta Gaby Ramirez poso mas atrevidamente...será.

Esta es Gaby Ramirez






Y esta Alejandra Urdiaín




lunes, 14 de julio de 2008

ATi Radeon RV770 by ChileHardWare

Bueno ya hemos visto la revision a la arquitectura de nVidia la GT200 la cual ha sido muy criticada pues la competencia habi sacado semanas despues su nuevo chip que resulto ser muy competitivo en cuanto a precio/performance y este es el RV770 el cual sustituyo al bien recibido RV600 la arquitectura R700 de AMD-ATi fue sorprendente en papel pues llego a rebasar el Teraflop o calculos por segundo que puede realizar y por si fuera poco se implemento en el tope de linea la nueva memoria GDDR5 la cual sustituira a la actual GDDR4 la cual no fue bien recibida por la industria pero que al final no aportaba demasiado pues nVidia por su parte nunca fue partidario de la GDDR4 preferia seguir utilizando GDDR3 para sus soluciones graficas, en fin parace ser que al fin ATi volvio a tener la corono de las graficas y que los problemas han quedado atras pues en este año tendremos el lanzamiento de su solucion de dos nucleos la cual segun previews hace pedazos a la competencia lo cual habla de que los chicos de ATi se han puesto las pilas y han ganado terreno en cuento a miniaturizacion y han sorprendido a todos cono sus excelentes precios en sus ultimos chips de 65 y 55 nm, lo cual le ha costado un poco a nVidia como se vio en la nota anterior pero bueno veamos que tiene este chip dentro.

Arquitectura RV770

No ha pasado una semana desde que les entregamos a ustedes la primicia del lanzamiento de los nuevos GPUs de NVIDIA y nuevamente estamos haciendo un acto de presencia para traerles a ustedes la cobertura del lanzamiento del núcleo RV770 de AMD, también conocida como la serie ATI Radeon HD 4800.

¡Rompimos la barrera del Teraflop!, anuncia AMD cuando lanzó su tarjeta de cómputo AMD Firestream 9250 el mismo día de lanzamiento del GPU GT200 de NVIDIA, el cual era el objetivo principal de la segunda empresa hace un tiempo atrás en un webcast que ellos realizaron. Los rumores decían que el G92 sería el GPU encargado en llegar a esta marca, pero no fue así. Tampoco lo hizo su sucesor, el recién lanzado GT200. En la historia quedará escrito que esta marca es de color rojo y verde gracias al RV770.

Dicen que el tamaño no lo es todo y vaya que AMD lo demostró. Utilizando el proceso de manufactura más avanzado de TSMC (55nm) logró comprimir 956 millones de transistores en menos de la mitad del silicio que ocupa el GT200 de NVIDIA. Mucho mérito tiene esto, pues la empresa puede jactarse de que produce un chip relativamente económico y de consumo eléctrico mucho más racional que la bestia de 260w de su competidor.

Pero, ¿qué es un teraflop? ¿Para qué me sirve? ¿Por qué escucho rumores que el GPU de NVIDIA con menos poder de cómputo logra un mayor rendimiento en Crysis? Todas esas preguntas y muchas más serán resueltas en el siguiente análisis de su portal de tecnología favorito.

Arquitectura

Según las especificaciones técnicas de AMD, la empresa habla que su GPU posee 800 unidades de procesamiento de shaders (Shader Processing Units o SPUs) que al ser comparados con los 240 SPs de NVIDIA, nos da un 333.33% periódico más de elementos computacionales. Viendo estos números, la primera impresión que da es que el motor TeraScale (como denomina ATI a la arquitectura de su GPU) debe ser capaz de jugar Crysis a 2560x1600 con todo en máxima calidad y tener un rendimiento por encima de los 30 cuadros por segundo. Sin embargo, esto está lejos de la realidad y esto se debe a que la arquitectura de este GPU es muy diferente a la de su competidor.

Para poder entender este gráfico un poco mejor, hemos puesto algunos números que dividen el GPU en grandes bloques para así ir haciendo un análisis desmenuzado de este complejo chip.

1. Procesador de comandos y motor de configuración:

Las unidades funcionales, las cuales no han cambiado mucho desde el R600, son similares al procesador de hilos de NVIDIA, el procesador de comandos recibe las instrucciones del driver en donde se determina si lo que se va calcular son instrucciones de cómputo, pixeles, vértices o geometría para luego ser enviados al despachador de hilos (compuestos los hilos de una o más instrucciones) que envían posteriormente a los núcleos SIMD del GPU. En estas estructuras, también se encuentran algunas memorias cache para las instrucciones al igual que la unidad de Hierarchical Z (encargada de descartar los pixeles que no serán visibles en cada cuadro de animación) y teselador programable (¿inventé una palabra nueva?). Esta última unidad está siendo fuertemente promocionada por AMD como un avance único de su arquitectura pues NVIDIA no tiene dicha unidad. De las muchas innovaciones que se han presentado en el mundo de la renderización en 3D, la técnica de teselar es una de las más interesantes.

Si recuerdan ustedes algunas nociones de la técnica de renderización, sabrán que las imágenes en 3D están compuestas por polígonos, en específico triángulos. A mayor cantidad de ellos, mejor es la definición de la imagen. Sin embargo, utilizar demasiados triángulos para definir una imagen en extremo detalle puede ser muy costoso en rendimiento. La técnica de teselar permite que, usando un polígono base, éste se subdivida en muchos triángulos más. Así, con el costo de rendimiento de una imagen poco definida, se puede crear una de mucho más alta definición como lo gráfica el siguiente ejemplo que muestra la definición de imagen con distintos niveles de teselación.




Como se puede apreciar, esta técnica resulta ser muy interesante y debiese tener acogida por parte de los desarrolladores. Sin embargo, el futuro de esta técnica ha estado en veremos desde hace años, pues la primera versión de ella la introdujo ATI en la Radeon 8500 y todavía no ha logrado captar la atención de los desarrolladores. No solo esto, esta técnica no hace parte ni si quiera de DirectX 10.1, por lo que para implementarla se debe recurrir a instrucciones especificas que permiten hacerla funcional. Por eso, por mucho que AMD este promocionando esta técnica fuertemente, esta recién hará sentido cuando Microsoft termine DirectX 11 que incluye la teselación como parte de su especificación y para ello, falta mucho todavía.

2. Núcleos SIMD

En esta parte del GPU se concentra el grueso del poder de cómputo del RV770, pues es acá donde está escondido el poder de los teraflops que tanto se hace referencia. En resumen, este chip contiene en su interior 10 núcleos de instrucciones SIMD. Cada núcleo está compuesto por un conjunto de 16 stream processors (SPs) que incluyen en su interior 5 SPUs como se aprecia en el gráfico, desarrollado nuevamente gracias al Departamento Didáctico de CHW:

Su estructura y forma de funcionamiento tampoco ha variado mucho dese el R600 y el único cambio notorio es que aumentaron la cantidad de núcleos SIMD de 4 a 10. Sacando nuestra calculadora del bolsillo nuevamente podemos hacer el siguiente calculo: 10x16x5= 800 SPUs, a comparación de los 4x16x5= 320 SPUs del R600. Sin embargo, este cálculo no es compatible con el de la arquitectura GT200 en donde mencionamos que habían 10x3x8= 240 SPs. Esto se debe a que AMD considera que cada SP incluye 5 unidades de cálculo más pequeñas en su interior. Por lo tanto, la primera aproximación de equivalencia entre estas dos arquitecturas sería la siguiente:

* AMD: 10x1x16x5 (Núcleos SIMD, cantidad de núcleos SIMD, SP, SPU)

* NVIDIA: 10x3x8x1 (TPC, SM, SP, unidades de procesamiento por SP)


Como se menciono anteriormente, cada SP está compuesto por 5 unidades SPU, cuatro de ellas capaces de ejecutar una operación MAD (suma y multiplicación) y la quinta (SPU C) es una unidad que puede realizar cálculos especiales más complejas que las realizadas por los otros cuatro. Adicionalmente, cada SP tiene unos registros internos (espacio de memoria para almacenar datos compartida por todos los SPUs). Todo lo anterior se puede apreciar en el detalle de cada SP comparado con el SM de NVIDIA:

Como se puede observar, la organización del SP se asemeja mucho más a las unidades SM de NVIDIA que a sus SPs. Esta es la razón que justifica ajustar la forma como están compuestas las arquitecturas de AMD y NVIDIA.

Como 800 puede ser mayor, igual o menor a 240

Es en este punto del análisis técnico donde se debe hacer una pausa para poder comprender por qué las diferencias de rendimiento entre el RV770 y el GT200 entre lo que se aprecia en juegos y el poder teórico de computo de los GPUs, en donde en el primero NVIDIA es superior y en el segundo lo es AMD.

La primera distinción clave que hay que hacer es decir que cada SP de AMD procesa instrucciones de palabra muy larga (Very Long Instruction Word o VLIW) de ancho 5. Las instrucciones VLIW están diseñadas para aprovechar el paralelismo, al empaquetar un conjunto de hasta 5 instrucciones que no sean interdependientes entre sí (en otras palabras, ninguna de las 5 instrucciones puede depender de las otras) en una sola a ser ejecutada. El beneficio de emplear VLIW es que las unidades de cómputo son más sencillas, por lo que se requiere de menos transistores para construirlas. Sin embargo, esto trae como consecuencia que no siempre se están ejecutando 5 instrucciones en paralelo por SP por ciclo (hertz). Por lo tanto, para extraer el máximo nivel de paralelismo y por ende la eficiencia de la arquitectura, se requiere de un compilador muy sofisticado, que tenga una lógica muy avanzada que permita agrupar conjuntos de instrucciones con la menor cantidad de interdependencias posibles. Esto hace que la comunicación entre el software y el hardware de AMD sea mucho más complicada que el de NVIDIA y favorece a la segunda pues siempre será capaz de procesar una instrucción por ciclo por cada SP.

Ahondando en este estudio, como se mencionó en el análisis de la arquitectura de NVIDIA, el GPU procesa los hilos en grupos de a 32, los cuales se demoran en ser procesados 4 ciclos (dos hilos por SP). Por su parte, el RV770 es capaz de procesar un máximo de 16 hilos por núcleo SIMD (uno por cada SM) que pueden ser de un máximo de 5 instrucciones por hilo. Teniendo en cuenta las arquitecturas de cada GPU, el recién creado Departamento FLOPs y Calculadoras de Bolsillo de CHW llegó a las siguientes conclusiones:

* AMD= 10 núcleos SIMD x 16 hilos por ciclo = 160 hilos por ciclo de hasta 5 instrucciones

* NVIDIA = 3 SM x 10 TPC x (32 hilos / cada 4 ciclos) = 240 hilos por ciclo de sola una instrucción.


Lo anterior equivale a que AMD puede procesar un mínimo de 160 instrucciones por ciclo (25% superior a un G80 y 50% inferior al GT200) y un máximo de 800 instrucciones por ciclo (333% superior al GT200) a comparación de las 240 instrucciones constantes de NVIDIA. Antes de complicar más la historia, cabe aclarar que aquí se ven claramente las apuestas de cada empresa, mientras AMD optó por un GPU más sencillo en su arquitectura física (por ende, con mayores unidades de computo de menor tamaño) sacrificando la facilidad de compilación de los programas, NVIDIA opto por un GPU complejo pero mucho más sencillo de programar.

Pero esta historia todavía no termina aquí, falta el último ingrediente en esta teleserie. Si ustedes recuerdan bien, los SPs de NVIDIA corren a una frecuencia mayor al resto del GPU, por lo que aun cuando la velocidad de la Radeon HD 4870 sea de 750MHz, los SPs de la GTX 280 corren a 1296 MHz. Con esta última pieza del rompecabezas por fin podemos llegar a la mágica ecuación que permite determinar la cantidad de FLOPS (Operaciones de Punto Flotante por Segundo) que cada GPU de cada empresa afirma ser capaz de calcular (recuerden que las operaciones MAD valen por 2 FLOPS porque se calcula una suma y una multiplicación):

* AMD = (160 hilos x 5 instrucciones x750 MHz x 2 FLOPS)/10^12= 1.2 teraflops

* NVIDIA: (240 instrucciones x 1296 MHz x 2 FLOPS)/10^12 = 622.08 gigaflops


Al ver lo anterior, notamos que el resultado de NVIDIA es 2/3 de la cifra que ellos mismos indican para su GPU, equivalente a 933 gigaflops. ¿De dónde sale ese tercio adicional? Si ustedes miran la composición del SM del GT200 podrán observar que hay una unidad que se llama SFU. La SFU se encarga de muchas tareas como lo es el caso de la interpolación de valores (una función muy importante para los cálculos gráficos). Esta unidad, cuando no tiene tareas pendientes, es capaz de ejecutar una instrucción MUL (multiplicación) adicional con lo cual, en el mejor de los casos, NVIDIA procesaría 3 FLOPS por reloj, con ello llegando al valor de 933 gigaflops que ellos aseguran es capaz de procesar su GPU. Por lo que se puede ver, tanto AMD como NVDIA maquillan sus resultados con respecto a los FLOPS poniéndolas siempre en el mejor de los casos. Ahora, resulta interesante que poniendo el peor de los casos, el GT200 es casi un 260% más rápido que el RV770.

Después de este profundo y complejo análisis, cabe preguntarse, ¿Qué empresa tomó la mejor decisión? Por una parte, tenemos que el rendimiento de AMD varía mucho y no depende solo de su arquitectura sino del software que le envía instrucciones a procesar por lo que su rendimiento real es más impredecible. Sin embargo, esto ayuda a mantener a raya el tamaño y consumo del GPU lo que le permite implementar una tarjeta con dos GPUs fácilmente para competir contra la fuerza bruta del GT200 (estaríamos en presencia de una tarjeta con un mínimo de 320 instrucciones por ciclo y un máximo de 1600). Por otro lado, el GT200 tiene un rendimiento estable y predecible siempre que no depende de la forma como esté compilado el software. Esto hace que el GPU de NVIDIA sea mucho más fuerte en rendimiento medio pero a la vez hace que este sea prácticamente inmanejable en cuanto a tamaño, consumo eléctrico y costo. El as bajo la manga de una GX2 es prácticamente imposible de tener en cuenta y esto le puede pesar en contra a NVIDIA en el largo plazo.

Un último detalle a resaltar de los núcleos SIMD, es que tienen capacidad de procesar 240 gigaflops en precisión doble, (64-bit) que es considerablemente más que los 90 gigaflops que puede procesar NVIDIA. AMD no nos suministro mayor información aparte de lo mencionado, así que es poco lo que se puede saber de cómo obtienen dichos valores.

Más Arquitectura

3. Caché y Unidades de filtrado de textura

El RV770 incorpora un par de memorias caché para los núcleos SIMD (ambos de 16 KB). El primero de ellos sirve para el almacenamiento de información compartida de datos entre los SPs de AMD y el segundo es un cache compartido entre todos los 10 núcleos SIMD del GPU.

Se sigue manteniendo la proporción de una unidad de cálculo de texturas por núcleo SIMD igual que en el R600, lo que nos da un aumento de 16 a 40 unidades de direccionamiento y filtrado de texturas. Sin embargo, el ancho de banda del cache de texturas se duplico en el RV770 al igual que se duplicó el almacenamiento efectivo de ellas en el cache L1. Estas mejoras en las unidades de texturas hacen que sean mucho más eficientes que las del GT200, pues no solo procesan más texturas por segundo, sino que además lo hacen con la mitad de las que requiere NVIDIA.

4. ROPs

En el área de post-procesamiento de pixeles (ROPs) se mantuvo el mismo número de unidades con respecto al R600 (4 particiones), cada una atada a un controlador de memoria de 64-bit. Esto dista de la estrategia de NVIDIA quien agregó dos particiones ROP más con respecto a su GPU anterior. Sin embargo, puede que esto no sea muy necesario para AMD, pues desde el R600 optaron porque la resolución de las tareas de Anti-Aliasing estuvieran a cargo de los SPUs y no de unidades dedicadas para ello.

Con todo y ello, el cambio más notorio de las unidades ROP fue la inclusión de 8 unidades más de profundidad stencil (depth stencil) que permiten mejorar notablemente el rendimiento de muchos efectos de post-procesamiento tales como sombras. Junto con estas, aun cuando no detalladas por AMD, hicieron mejoras en el rendimiento de los filtros Anti-Aliasing prácticamente duplicándolo en todos los casos. También, su amplia gama de filtros Anti-Aliasing customizables fueron mejorados para evitar que los pixeles se viesen borrosos (una gran critica que se hizo en la generación R600 a los filtros CFAA). De hecho, en muestras suministradas por AMD, aseguran que sus filtros 8x MSAA y 24x CFAA, superan ampliamente al filtro 16xQ CSAA de NVIDIA y para ello, se muestra el siguiente ejemplo:

5. Controlador de memoria

Pareciese que el diseño del bus de anillo que implementaron soluciones anteriores no presentaba los beneficios que AMD esperaba, pues con la poca información que tenemos al respecto de este, todo pareciese indicar que utiliza una estructura más tradicional en donde un hub central distribuye los datos a cada controlador de memoria (4 de ellos para un ancho de banda de 256-bit total) alrededor del GPU. Sin embargo, el diseño es más inteligente que el de NVIDIA pues los controladores de memoria están puestos alrededor del motor de shaders del RV770, en vez de una ubicación central la cual resulta más compleja a la hora de distribuir los datos de forma más eficiente.


Adicionalmente, y probablemente lo más importante, es que el controlador de memoria ahora soporta las memorias gráficas más avanzadas del mercado, llamadas GDDR5. Estas memorias se caracterizan, entre otras cosas, por ofrecer mayor eficiencia en el ancho de banda, mayores velocidades de reloj y menor consumo eléctrico que diseños anteriores. No solo esto, los módulos de memoria son más pequeños, la integridad de la señal es mejor (para mayor estabilidad a altas frecuencias) y tiene mayor confiabilidad en la entrega de datos ademas de mayor tolerancia a los errores, lo que finalmente se traduce en una mejor escalada de frecuencia. Finalmente, este tipo de memorias permiten hacer diseños de las rutas que conectan las memorias con el GPU más sencillos lo que abarata los costos de desarrollo del PCB y disminuye el ruido eléctrico en este por empleo de rutas menos complejas.

Lo medular acá es que AMD opto por aumentar el ancho de banda utilizando memoria de mayor ancho de banda en vez de emplear un bus más complejo como el de NVIDIA. Esto hace que el controlador de memoria sea más sencillo, requiera de menos conexiones eléctricas y escale a mayores frecuencias pues no está al límite de la tecnología, sino que está recién en su primera etapa. Es cierto que el ancho de banda efectivo del RV770 es inferior al del GT200, pero este último está al límite de sus posibilidades y no es mucho lo que se puede mejorar por lo que AMD no tendría muchos inconvenientes en el caso de que quiera aumentarlo.

Después de este análisis en profundidad de la arquitectura, podemos resumir las características del GPU en sus versiones Radeon HD 4870 y Radeon HD 4850 a comparación de la Radeon HD 3870 y la GTX 280 en la siguiente tabla:


Stream computing, física y consumo eléctrico


NVIDIA lleva un buen tiempo anunciándole a todo pulmón a quien lo escuche con respecto a CUDA y sus bondades. De hecho, tienen una visión y una estrategia muy clara de hacia dónde quieren apuntar y lo han promovido mucho en todas sus presentaciones. Es tan así, que hacen una distinción muy clara entre el modo gráfico y el modo computo de su GPU, aparte de tener separados muchos recursos (desde pagina web hasta clases universitarias) para promover CUDA.

El caso de AMD es menos claro, es cierto, tienen casos de aplicaciones que explotan el poder de cómputo de sus GPUs, tienen herramientas de desarrollo como Brook+ y están trabajando en futuros estándares de computación en paralelo como OpenCL (Open Compute Language). Sin embargo, pareciese ser que AMD promueve este conjunto de herramientas más como por decir “nosotros también lo hacemos” que como un esfuerzo concentrado por hacer que la computación en sus GPUs despegue. Entre lo que hay en las presentaciones de AMD, la documentación para utilizar su GPU y el soporte prestado a las herramientas queda la sensación es que su estrategia no está desarrollada sino mas bien es improvisada.

Similar a lo que ocurre con las herramientas de cómputo para GPUs AMD, pasa con su soporte de física. Al igual que NVIDIA, AMD lleva años prometiendo soporte de física por medio de sus GPUs, sin embargo esto no se ha materializado. En el caso de NVIDIA, se pueden ver acciones completas como la adquisición de AGEIA, portar PhysX a CUDA, drivers beta y demostraciones. Por otro lado, AMD apenas menciona que prefiere usar Havok como motor de física y lanza una frase que no entrega muchas esperanzas al compromiso de AMD con dicha tecnología: “Exploración del soporte del GPU ATI Radeon para el soporte de productos Havok donde la carga de trabajo tome ventajas del poder de computo”. En pocas palabras, es poco lo que se ha avanzado con respecto a las promesas que la empresa ha hecho en el pasado.

Finalmente, y para terminar la revisión de la arquitectura, se debe resaltar que AMD desarrolló un GPU que aun cuando es muy poderoso, también es mucho más eficiente desde el punto de vista energético. Utilizando una mezcla de un proceso de manufactura más avanzado, una arquitectura pensada en un consumo eléctrico racional y técnicas de ahorro de energía, el RV770 se convierte en la arquitectura más eficiente y sea la solución más verde en cuanto a GPUs de alto rendimiento.

Conclusiones

La sorpresiva respuesta de NVIDIA la semana pasada al anuncio del RV770 por medio del lanzamiento de la 9800GTX+ a un precio muy bajo muestra que la empresa está muy preocupada. AMD produjo un GPU extremadamente poderoso y lo que es más relevante, a un precio muy bajo ($199 dólares por la Radeon HD 4850 y $299 dólares por la Radeon HD 4870). Estamos hablando que AMD está posicionando su último GPU como un producto de rango medio, es decir lo que hace poco tiempo era tope de línea y costaba acorde a ello, ahora se puede conseguir a precios muy asequibles. ¡Gracias AMD por ayudar a influir a la baja los precios de las tarjetas gráficas!

AMD tiene un GPU de tamaño manejable, con una arquitectura flexible (pensando en sus futuras optimizaciones) de consumo energético razonable y de bajo costo. Definido en palabras de AMD, la empresa logró avances en consumo energético, eficiencia, escalabilidad y asequibilidad en precio, mientras que NVIDIA tiene problemas en esos mismos parámetros.

El margen de maniobra de NVIDIA es mucho más reducido y su riesgosa apuesta puede poner en aprietos a la empresa, mientras que AMD, aprendiendo de la lección que le entregaron los muchos problemas en la introducción del R600, optó por replantearse el mercado y su dura competencia con NVIDIA. Concentrándose en sacar GPUs de muy alto rendimiento en la gama media a precios bajos y compitiendo en la gama alta ya sea con soluciones CrossfireX o con tarjetas de video X2, pareciese que su lectura del mercado es más acertada o por lo menos más balanceada.

Considerando los rumores que se han escuchado con respecto al R700, el cual podría tener en su interior circuitería especial que le permitiese a cada GPU comunicarse de forma más eficiente y tener cualidades como compartir el mismo banco de memoria, estaríamos frente a un producto más que competitivo con la GTX 280, pues no se limitaría a simplemente poner dos GPUs y habilitar Crossfire. Si esta solución llegase a ser superior en rendimiento a la GTX280 o un poco inferior a ella, pero a un precio más bajo, a NVIDIA le quedarían muy pocas opciones sobre la mesa con su actual arquitectura, pues su GPU está muy al límite de la tecnología en cuanto a proceso de manufactura, velocidades del GPU, controlador de memoria, consumo eléctrico y costo. De hecho, en estos momentos la arquitectura con mayor flexibilidad de la empresa es la del G92, (aunque ésta es cada vez menor pues ya de por sí es un refinamiento del G80) demostrado claramente con la rápida respuesta al lanzamiento del RV770. Pero ese lanzamiento demuestra una cosa, NVIDIA no es una empresa que cederá fácilmente en esta batalla.

Ciertamente se acercan tiempos muy interesantes pues hoy AMD con el lanzamiento de su arquitectura mostró que tienen una estrategia muy agresiva al mismo tiempo que una clara visión de futuro con respecto a los GPUs para gráficas. Se menciona esto ultimo pues en cuanto a cómputo, creemos que AMD no es muy claro en su postura y no inspira la confianza que lo hace la faceta gráfica del chip. Felicitamos a AMD por no haberse rendido en la guerra de GPUs de alto rendimiento y ofrecernos una propuesta que mantiene vivo el espíritu de la competitividad que permite que la gran mayoría de las personas puedan gozar de excelente rendimiento a precios muy bajos. Adicionalmente, tendremos una entretenida lucha de tanto AMD como NVIDIA con propuestas en tanto arquitectura como estrategias comerciales diametralmente opuestas. ¿De qué lado de la fuerza estarán ustedes en esta generación?

Nota del Autor: Pedimos disculpas por no poder ser más específicos en ciertas áreas de la arquitectura, pero la información proporcionada por AMD fué muy incompleta y se debío investigar mucho dentro de la poca información disponible de forma independiente para poder realizar este artículo.


(c) ChileHardWare URL ORIGINAL

lili brillante.....

....... conductora...... la mera verdad yo nunca le puse atencion..... pues salia junto a galilea "culo de payasito de crusero" montijo...........pues quien ptas le va aponer atencion.... pero se encuero... y aqui la tenemos.........jeje




















nVidia GeForce GT200 by ChileHardWare

Bueno hace ya mucho que no tomammos reviews de nuestros amigos de Chilehardware XD y para que no se vea tan vacio el blog y luego de que mi cuate el pinguino nos contara la historia de Hankcock, bueno en los ultimos meses se han dado los lanzamientos mas esperados del verano para los entusiastas por lo menos, nVidia cambio de nombre a sus tradicionales series que llevaban secuencias series 4,5,6,7,8 y finalmente 9 desde la vieja Geforce 4 se habia mantenido el numero hasta la 9800 que parecia un dejavú ya que hace 3 generaciones o series Ati owneara a nVidia con ese mismo modelo y las cosas han cambiado desde entonces nVidia se habia empeñado en hacer mejores productos y ATi paraecia que luego de sus logros se durmio en sus laureles, bueno pero el punto es hace un mes mas o menos nVidia presento su nuevo chip el sucesor del no tan bien recibido por su excesivo costo el n90 pero que ya se ha devaluado por la competencia con ATi y nVidia decidio renombrar a su familia de chips y en esta ocasion en lugar de nombrarlo n100 o algo asi se ha cambiado a la familia por GT200 y con la sorpresa de la reduccion a 65nm y un buen performance pero un excesivo precio, pero bueno pasemos a conocer la arquitectura del GT200 lo bueno y lo nuevo.

Arquitectura GT200

Hoy celebramos por partida doble. Por un lado NVIDIA lanza una nueva arquitectura luego de 18 meses y por otra parte, bastante más importante, estrenamos nuevo colaborador: Nicolás Rencoret, una eminencia en el tema gráfico que nos dará una cátedra de lo que trae GT200 bajo la capota.

1.400 millones de transistores miniaturizados en un cuadrado de silicio de 576mm2 con proceso de fabricación de 65nm, muchos de ellos corriendo a más de 1200MHz, alimentados por 1GB de memoria sobre un bus de 512-bit de ancho y disipando 236w. Este es el más breve de los resúmenes de la arquitectura GT200 de NVIDIA. Sacando una calculadora y haciendo unas cuantas sumas y restas, es fácil comprender que la empresa de Santa Clara está introduciendo hoy un chip que estresa al límite muchas de las estrictas leyes de la física.

Realmente es para dejar pasmado a cualquiera que pueda comprender la magnitud de lo que pudo lograr la empresa. Por eso, hoy les mostraremos un análisis técnico detallado del desarrollo de este GPU para no solo entender que es lo que lo hace especial, sino para entender cómo ha cambiado la mentalidad de NVIDIA con todo el ruido que ha existido en el ambiente con respecto a CPUs+GPUs, Larrabees, fusiones y demás acontecimientos recientes en el mundo de los GPUs y el procesamiento de datos.

El tamaño y sus implicancias

El GPU GT200 es grande, extremadamente grande y esto combinado con el hecho de que la arquitectura de GPUs es más compleja que la de un CPU, tiene una cantidad importante de consecuencias.

Para aproximarse de mejor forma a este tema, es ideal visualizar la evolución de los GPUs y los CPUs a través del tiempo en cuanto a tamaño y densidad de componentes.



Como se puede apreciar, Intel ha sido capaz de mantener el tamaño de sus CPUs bajo control lo cual es el resultado principalmente del hecho de que son líderes en los procesos de miniaturización para la fabricación de chips, junto con el hecho de que un muy elevado porcentaje de sus transistores son empleados en memoria cache en vez de ser unidades de procesamiento. Por otro lado, a NVIDIA le ha costado controlar el tamaño de sus GPUs y sus desarrollos les están comenzando a salir un poco de las manos. La razón de esto, es que mientras más grande sea el tamaño del cuadrado de silicio, se pueden obtener menos chips por cada oblea (wafer) que se procesa. Esto es obvio, pues la oblea no ha crecido en diámetro - 300mm - en muchos años. Si para el G80 cada disco tenía 121 GPUs de 484mm², siendo que el tamaño del GT200 es ahora de 576mm², la cantidad de ellos se reduce aproximadamente a 100. Junto con esto, la cantidad de chips sin defectos o en otras palabras, su rendimiento productivo (yields) disminuye debido a que las impurezas ahora amenazan a la superficie de un circuito impreso cuya área es mayor. Por ende, la cantidad de GPUs buenos se reduce en una buena cantidad con respecto a los del G80 trayendo como resultando que el costo del GT200 sea significativamente más alto para la empresa.


Adicionalmente, la cantidad de transistores en cada procesador gráfico ha aumentado a un ritmo considerablemente más rápido que el de los CPUs como se puede ver en la tabla. Considerando que es Intel la empresa que utiliza los procesos de manufactura más modernos del mundo y no NVIDIA, se puede ver como esta última esta estresando mucho más la tecnología a su límite. Esto se demuestra de forma muy clara cuando se compara el consumo en watts de los más recientes desarrollos de ambas empresas: mientras el Intel Core 2 Extreme QX9770 consume - según documentos de la empresa - 150w, el GT200 disipa 236w, un 57% más aproximadamente. No solo esto, debido a que los transistores del GPU son en su gran mayoría unidades de procesamiento a comparación del caso de Intel en donde la mayoría se emplean en memoria cache, la cantidad de ruido eléctrico generado dentro de cada GPU está haciendo que cada vez sea más difícil que ellos logren frecuencias más elevadas.

Las consecuencias de lo anterior hacen fácil preveer que NVIDIA está llegando al límite de lo que pueden hacer en un solo chip para su siguiente generación de GPUs, tanto por factibilidad como por costos. ATI entendió esto desde hace un buen tiempo y optó por una solución inteligente: GPUs menos complejos, más económicos y más manejables, lo cual incluso les permite atacar el mercado de la gama alta de una forma más costo-eficiente empleando tarjetas de video con dos GPUs. Si se sigue la lógica, el GPU de siguiente generación de NVIDIA debería estar basado en una nueva arquitectura que diste del actual G80 y GT200. Esta nueva arquitectura debiese ser desarrollada de forma radicalmente diferente para mitigar los problemas actuales que hacen muy difícil que sea factible que nuevamente se duplique el numero de transistores (estaríamos hablando de más de 2.800 millones) y que el tamaño del chip se pueda fabricar con costos razonables. Para ello hay tres caminos posibles:

* Usar el mismo modelo de ATI, en donde la gama alta la dominan tarjetas de video con más de un GPU.
* Desarrollar las unidades funcionales de la arquitectura en varios chips como lo hacía antes 3dfx (ejemplo: un chip para shaders, otro para ROPs y otro para visualización de imágenes).
* Una nueva arquitectura muy diferente a lo que estamos acostumbrados que permita crear GPUs más poderosos con aumentos marginales en la cantidad de transistores en cada generación.

Chip con doble personalidad

Con el lanzamiento del G80, NVIDIA no solo introdujo su primer GPU con shaders unificados, sino que también invirtió fuertemente en otros usos para el increíble poder de cálculo de este. Fue así como la empresa desarrollo CUDA, una herramienta única que permite desarrollar aplicaciones que emplean lo mejor de las características de los GPUs y CPUs para que estas sean aceleradas a niveles impensados.


Para entenderlo, NVIDIA plantea el ejemplo siguiente: para valorar el mercado estadounidense de opciones (derecho a comprar o a vender un commodity en una fecha específica) completo se requieren de 600 CPUs (no especifican modelo) usando los métodos tradicionales. Con CUDA, solo se requiere un servidor con 8 núcleos y 12 GPUs (G80) para realizar los mismos cálculos. Considerando aspectos de refrigeración, mantención, espacio y costo de adquirir cada solución, se puede entender porque NVIDIA se siente muy segura de sí misma para enfrentar el futuro.

Con este ejemplo se puede entender como NVIDIA invirtió tiempo en el desarrollo el GT200 no solo como un GPU sino como un chip masivamente paralelo, (lo cual la empresa define como ‘Compute Architecture’ y ‘Graphics Architecture’) y eso lo muestra claramente la arquitectura:


Características comunes



Como se puede ver arriba el chip se divide en 4 partes principales que se explican a continuación:

1. Manejo de hilos (threads)

En la arquitectura unificada de NVIDIA no existen unidades específicas que cumplan las funciones de por ejemplo, pixel shaders o vertex shaders o cualquier otro conjunto de instrucciones. La forma como se procesan estas instrucciones es por medio de unidades que asignan hilos atadas a su característica y son enviados a los streaming processors a ser procesados. Por ejemplo, si se va a procesar un programa de pixel shader, la unidad de pixel shader crea los hilos marcados con esa función para ser procesados posteriormente. Las diferencias de esta unidad entre su modo computacional y su modo gráfico se verán en el siguiente apartado.

2. Area de procesamiento principal

La versión resumida de esta historia dice lo siguiente: en esta área del GPU se encuentran los procesadores de hilo (streaming processors o SP) que son agrupados de 8 en 8 en multiprocesdores de flujo (streaming multiprocessors o SM) los cuales incluyen elementos adicionales dependiendo de si se usa el chip en modo computacional o gráfico. Finalmente, los SMs están agrupados de a 3 en grupos de procesamiento de hilo (thread processing clusters o TPC) que adicionalmente incluyen las unidades de texturización y el cache L1 - de primer nivel - compartido. Teniendo en cuenta que hay 10 TPCs en el GPU podemos llegar a esta sencilla ecuación: 10x3x8= 240. Este número representa la cantidad de SPs (núcleos de procesamiento del GPU) que posee la arquitectura, un salto considerable con respecto a los 128 SPs (8 TPC x 2 SM x 8 SP) del G80. Como se pueden dar cuenta, este solo párrafo es para marear a cualquiera, por eso el Departamento Didáctico de CHW gasto miles de horas en Photoshop para llegar a esta obra de arte:


Si consideramos que hay 10 de estas unidades, es más fácil visualizar donde están los 240 SPs. Ahora, haremos un breve resumen de las características de todas estas unidades:

* Cada TPC usa una arquitectura de ejecución MIMD (multiple instruction multiple data). Esta es una técnica para lograr paralelismo que permite que cada SP funcione de forma asincrónica e independiente, es decir, en cualquier momento cada SP puede estar ejecutando distintas instrucciones en diferentes fragmentos de datos.
* Cada SM usa una arquitectura de ejecución SIMT (single instruction multiple thread). Esta técnica permite crear, manipular, agendar y ejecutar hilos de forma más rápida y eficiente que utilizando la técnica SIMD. Esto se da debido a que bajo SIMD, si el vector es menor al tamaño que se ha estipulado para la unidad SIMD el rendimiento se reduce. Así es que ocurre lo que es sabido del R600, el cual aun cuando según ATI dicen que tienen 320 SPs, la efectividad de ellos puede variar entre 64 y 320.

* La unidad de SIMT en cada SM crea, manipula, agenda y ejecuta hilos en grupos de a 32 de ellos lo que se llaman warps , con un máximo de 32 warps por SM (con un total de 1024 hilos por SM) a comparación de los 24 warps (768 total por SM) de 8800GTX. Al final se pueden estar manipulando simultáneamente en el chip 30720 hilos simultáneos. Con ello, aumenta la cantidad de hilos procesados por SM simplemente por ser una arquitectura más refinada aparte de su aumento en el GPU derivado de la mayor cantidad de SMs y TPCs. Adicionalmente el GPU tolera la latencia muy bien porque si un hilo se demora en accesar la memoria, se puede hacer un cambio a otro hilo sin incurrir en una penalidad de tiempo.
* Se duplica el tamaño del archivo de registro local (LRF), lo que permite que se puedan ejecutar dentro del GPU programas de shaders más grandes sin tener que hacer swap (lo que disminuye rendimiento).
* Los SPs no han cambiado en su forma de ejecutar instrucciones pues siguen ejecutando dobles operaciones MAD (sumar y multiplicar) los cuales son ayudados por unas unidades especiales (Special Function Unit o SFU) que pueden ejecutar una operación MUL (multiplicación) adicional. Sin embargo la eficiencia de ejecución de MAD + MUL si se mejoro con lo cual aumenta el poder de cómputo del GPU.
* En cada SM se incluye una unidad de instrucciones (IU) encargada que entrega las instrucciones que ella recoge del cache de instrucciones.
* Los 16KB de memoria local de cada SM son compartidos por el grupo de 8 SPs en su interior para evitar hacer búsquedas de datos fuera de la unidad.
* Algo muy interesante que NVIDIA está reconociendo es que el GPU soporta operaciones flotantes de 64-bit de precisión - llamado doble precisión - en una pasada sencilla, requeridos para muchas aplicaciones especialmente para el procesamiento de datos (modo de cómputo) que requieren resultados de alta precisión matemática. Esto sin embargo penaliza el numero de núcleos utilizables de 240 a 30 (cada SM se convierte en un núcleo) entregando 90 gigaflops los cuales equivalen a un Xeon de 8 núcleos. NVIDIA se ha caracterizado por mostrar lo poderoso que es su GPU en modo de cómputo mostrando aumentos de rendimiento con respecto a CPUs de 10, 50 y hasta 150 veces, pero acepta que la merma de rendimiento es muy considerable cuando el GT200 trabaja con precisión de 64-bit.
* Con respecto al rendimiento de texturas, el GT200 rinde de forma similar al G92 pues al igual que este, también tiene 8 unidades de direccionamiento de texturas (TA) y 8 unidades de filtrado de texturas (TF) a comparación de las 4 y 8 respectivamente del G80.


3. ROP

Para el subsistema de ROPs (encargados de hacer el procesamiento final de los pixeles) el GT200 adiciona dos particiones más de ellas con lo cual pasa a tener 8 ROPS a comparación de 6, lo que le permite procesar hasta 32 pixeles por reloj. Esto implica que técnicamente el GT200 debería tener un rendimiento superior al aplicar filtros (de alisado de lineas y anisotropico) en comparación a G80.

En la generación anterior, cada ROP estaba conectado a un canal de memoria de 64-bit, en esta generación se da el mismo caso, por lo que ahora el bus de memoria pasó de tener 384 bits a tener 512-bit.

Aparte de algunas otras optimizaciones menores para ciertos tipos de pixeles, los ROPs se mantienen estructuralmente iguales a los anteriores, lo cual implica que todos los modos de Anti-Aliasing / Alisado (MSAA, SSAA, AA de transparencia adaptiva y CSAA) que existían en la generación anterior, son soportados por el nuevo GPU, pero no se agregan nuevos modos.

4. Canales de memoria

Es interesante que NVIDIA habla de que se optimizaron las rutas críticas de memoria para que esta pueda operar a una velocidad máxima de 1,2 GHz GDDR3, algo que probablemente viene del G92 pues la velocidad de las memorias en la GeForce 8800 GTX era de 900MHz, que luego subieron a 1080MHz con la GeForce 8800 Ultra y posteriormente a 1100MHz con la GeForce 9800 GTX. Sin embargo, esto también quiere decir que el controlador de memoria está al límite de sus capacidades para GDDR3. NVIDIA cuando tuvo que decidir sobre que tecnología de memorias tendría para su siguiente GPU, decidió ser conservador manteniendo el uso de GDDR3, la cual a estas alturas está ampliamente disponible y por ende es más económica, confiando en que el mayor ancho de banda surgiría por agregar un par de controladores de memoria más en vez de depender del aumento de frecuencia de la memoria. La decisión tomada por la empresa es muy razonable pues disminuye los costos de investigación y desarrollo de un nuevo controlador de memoria, mientras se toman una mayor cantidad de tiempo en hacer las pruebas correspondientes para desarrollarlo y optimizarlo al mismo tiempo que disminuyen los costos por tarjeta de video armada.

También, NVIDIA hizo algunos ajustes en la razón o ratio de ancho de banda entre las texturas y la memoria para que esté más acorde a las cargas de trabajo actuales y futuras y así mantener a las unidades de textura siempre trabajando pues siempre los datos están disponibles.

Por otra parte, se aumentaron en 6 veces la cantidad de estructuras internas para los buffers de salida lo que hace que las operaciones de los shaders de geometría y las operaciones stream out (útiles para modo cómputo) sean considerablemente más rápidas que las del G80 y un poco más rápidas que las de la Radeon HD 3870 X2. Esto es destacable, porque en las pruebas de rendimiento que utilizaban shaders de geometría eran consistentemente más lentos los GPUs de NVIDIA. Siendo que la arquitectura del G80 tenía un rendimiento superior en todas las pruebas de rendimiento vistas en benchmarks y análisis (en donde no se emplean mucho los shaders de geometría pues estos solo fueron recién introducidos con DirectX 10 y las arquitecturas compatibles de NVIDIA y ATI) la empresa se aseguro de corregir una de las pocas cosas en la cual estaba en franca desventaja con la competencia.

Diferencias de personalidad

Como se había comentado anteriormente, el GPU puede trabajar en modo de cómputo y en modo gráfico. Ahora, eso no significa que como en el caso de la SoundBlaster X-Fi se deba cambiar de un modo a otro dependiendo de la actividad que se realice, al contrario, gracias a su arquitectura modular y paralela, el GT200 no tiene inconvenientes en procesar algunas instrucciones de cómputo y otras de gráficas (por ejemplo un juego usando 3/4 de los shaders para gráficas y el cuarto restante para cálculos de física). Esta buena noticia se debe precisamente a que se habla de una arquitectura unificada en donde un hilo de vertex shader se crea tan fácil como un hilo de cómputo. Lo que si cambia, son las unidades activas y su funcionalidad dependiendo del modo que se use, por eso acá presentamos una pequeña tabla que resume las diferencias que existen entre cada modo:

Volviendo al principio de este articulo, ahora es más fácil comprender toda esa cantidad de datos estadísticos que han determinado las capacidades del GT200. Ahora solo falta hacer un resumen de lo que es capaz de hacer el nuevo GPU de NVIDIA con respecto al G80:

El GT200 vendrá en dos versiones, el modelo GTX280 y el modelo GTX260. Al igual que en la generación pasada, la diferencia entre cada modelo radica en las velocidades de reloj, en que se deshabilitan dos TCPs completamente, lo que implica que disminuye el número de shaders y se deshabilita un ROP. Con eso se tiene lo siguiente:

Dame todo el power

Dame todo el powerComo fue comentado anteriormente, debido a la complejidad de este GPU, su consumo eléctrico esta por las nubes llegando a disipar 100 watts más que el Core 2 Extreme QX977x. Es cierto que técnicamente se puede hablar de que el rendimiento por watt fue incrementado en una buena medida con respecto al G80, pero esto no quita el hecho de que estamos frente a un GPU cuyo consumo eléctrico resulta excesivo. NVIDIA lo sabe y por ello decidió tomar cartas en el asunto e intentar reducir el consumo eléctrico del GT200 cuando este no tiene que trabajar a carga completa. Para ello, implemento una serie de tecnologías que controlan este aspecto.

Por una parte, el GPU tiene varios modos de uso que van desde 2D hasta Hybrid Power que permiten reducir drásticamente el gasto innecesario de electricidad. Los modos implementados y su consumo son:

* Hybrid power, el cual apaga el GPU por completo cuando la tarjeta está instalada en una placa madre con chipset NVIDIA que tenga un GPU integrado (Consumo: 0W)
* Idle, modo 2D (Consumo: 25W)
* Reproducción Blue-ray (Consumo: 35W)
* Full 3D (Consumo: peor de los casos 236W, pero varia de acuerdo a carga y frecuencias)


Adicionalmente, el GT200 emplea una tecnología similar a speedstep de Intel en donde el reloj y voltajes se ajustan dependiendo de la carga y uso de GPU gracias a varios monitoreadores de actividad dentro del chip. No solo esto, también se pueden apagar bloques completos del GPU cuando no están siendo utilizados.

Es bastante positivo que NVIDIA haya considerado implementar más formas de restringir el consumo eléctrico que en cualquier otro diseño previo, pues estas partes suelen ser las que más malgastan electricidad en un computador al tener un manejo muy pobre de consumo eléctrico cuando la mayoría del tiempo las funciones del GPU están sin trabajar.

NVIDIA PhysX

En febrero de este año, NVIDIA anuncio la adquisición de AGEIA, la empresa responsable del API PhysX empleado para cálculos de propiedades físicas. Esta empresa ha dado mucho que hablar con su API y su famoso acelerador de física (PPU). Aun cuando sus productos permitían nuevos niveles de realismo en los juegos y pintaban como un buenos candidatos a ser una gran tecnología, desde la fundación de la empresa era poco visible el progreso de sus desarrollos. Por una parte, aun cuando muchos juegos habían implementado el API en sus motores (ejemplo Unreal Engine 3) los efectos que lograron impresionar a muchos no hicieron actos de presencia en los juegos. Esto se debió principalmente a que los desarrolladores de juegos implementaron funcionalidad física básica pues no existía (ni existe) la masa crítica de PPUs para desgastarse en desarrollar efectos que requieran aceleración por hardware.

Esto está por cambiar con el lanzamiento del GT200, pues en pocos días verá la luz un driver para GPUs unificados con soporte para PhysX. Como fue mencionado anteriormente, una gran característica de un chip gráfico unificado es que se pueden procesar hilos de gráficos e hilos de datos simultáneamente. Siendo que los cálculos de física dependen de chips que calculan datos masivamente paralelos, los GPUs de NVIDIA son perfectos para procesarlos. NVIDIA plantea el ejemplo de que por medio del uso del GPU se pueden acelerar en más de un 1200% los cálculos físicos tales como fluidos, cuerpos blandos y telas a comparación de un Core 2 Quad.

Dos detalles muy interesantes de esta tecnología que explicó NVIDIA tienen que ver con la escalabilidad de la física presentada en pantalla y el soporte por parte de los desarrolladores. Para el primer caso, uno de los grandes interrogantes (y retos) que se tenía con respecto a la física era su escalabilidad, es decir, la posibilidad de graduar el nivel de detalle dependiendo del hardware que se tuviese disponible, tal como se ha hecho con las opciones de gráficas en los juegos. Este problema ha sido resuelto por medio de un plugin que permite crear diferentes módulos en los cuales se manipulan distintas propiedades físicas (ej. un módulo para simulación de vegetación, otro para objetos que se pueden destruir, etc.) y en donde cada módulo se puede graduar al nivel de detalle que se desee. Este elemento es muy relevante pues permite a los desarrolladores mayor flexibilidad a la hora de implementar física en los juegos para que corran en la mayor cantidad de hardware posible.

La segunda cosa interesante es que en la presentación de NVIDIA se menciona que el API de PhysX está presente en todas las consolas de última generación (Sony Playstation 3, Microsoft Xbox 360 y Nintendo Wii). Lo relevante de este dato es que dada la batalla que se va a liberar en el campo de los APIs de física (donde compite el Havok de Intel, el cual fue anunciado que será soportado por AMD) resulta de importancia crítica que exista una gran mayoría de desarrolladores que hagan sus juegos basados en una sola API para que esta gane la guerra. Por ejemplo, si EA va a utilizar física en su última versión de FIFA, lo ideal es que se pueda compartir el código entre la versión del juego para cada consola y para PC. Que mejor saber que hay un solo API para programar en múltiples plataformas disminuyendo así los costos de desarrollo de cada juego. Sin embargo, Havck es un API consolidado con mucho soporte por parte de los desarrolladores, eso sin contar que cuentan con todo el aparataje de promoción de Intel lo que hace que esta guerra sea muy dura así que cualquier ventaja que se pueda obtener es clave.

Conclusiones

Como se pudo ver, estamos en presencia de una arquitectura muy poderosa y extremadamente compleja que en el papel pareciese que rinde de forma notable. Pero así como tuvimos el agrado de analizar este nuevo GPU, también pudimos ver que estamos ante una era de grandes cambios.

Por una parte, NVIDIA está promoviendo de forma muy fuerte el poder computacional de sus 240 procesadores de shaders por medio de CUDA. Desde cálculos financieros complejos hasta un cliente de Folding@Home extremadamente rápido, pareciese que las opciones son ilimitadas.

Recuerdo que hace un par de años AMD había anunciado su plataforma abierta Torrenza que dejaba a otras empresas usar distintas tecnologías de AMD - incluyendo Hypertransport - lo que permitía agregar aceleradores especiales muy fuertemente asociados al CPU. En esas épocas la empresa nos ponía a imaginar en una placa madre con dos zócalos de CPUs AMD en donde uno efectivamente se instalaba un CPU de la empresa, mientras que en el otro se instalaba un chip acelerador. Esa brillante idea daba para todo, aceleradores de física, aceleradores de cálculos matemáticos complejos, aceleración de procesamiento de medios, en fin lo que uno quisiera. Era tan atractiva la iniciativa que poco tiempo después Intel anunciaba un proyecto similar pero basado en PCI Express 2.0 llamado Geneseo.

Pasó el tiempo y nunca se supo mucho más de ninguna de esas dos tecnologías. Mientras tanto, este año NVIDIA ha anunciado que aplicaciones tan conocidas como Photoshop utilizaran al GPU para acelerarlas, Folding@Home ya es una realidad en GPUs ATI y pronto lo será en los de NVIDIA, han anunciado productos comerciales que permiten codificar video más allá que en tiempo real con la ayuda de un GPU, pronto llegara PhysX y adicionalmente ya hay aplicaciones comerciales que requieren de cálculos matemáticos extremadamente complejos, como simulaciones sísmicas para encontrar petróleo y simulaciones de dinámica molecular entre muchas otras. Suena a lo que nos prometían y todavía no cumplen AMD e Intel, lo mejor de todo NVIDIA lo está logrando empleando una sola herramienta común CUDA. Jen-Hsun Huang tiene razón para sentirse muy confiado, el potencial de sus GPUs es enorme. Dependiendo de cómo juegue sus cartas la empresa y como reaccionen los competidores, podríamos estar ante el nacimiento de un estándar de procesamiento muy fuerte tal como lo es x86. Pero para que esto pase falta una enormidad de tiempo y hay factores mucho más terrenales que resolver ahora.

La arquitectura del GT200 probablemente puede ser una de las últimas que se puedan desarrollar como un chip monolítico. La cantidad de componentes está avanzando a un ritmo mucho más alto que su miniaturización siendo el fiel reflejo de eso el enorme tamaño del GPU. Las leyes de la física pronto alcanzarán a esta forma de desarrollar estos chips, por lo que hay que pensar diferente, muy diferente tal como lo hicieron aquellos que soñaron en que la forma ideal de procesar gráficas en tres dimensiones era por medio de chips especializados y no dependiendo del CPU u optimizaciones a este tales como MMX.

Factores de mediano plazo (para la industria tecnológica) como el mencionado anteriormente deberán ser ejecutados con precisión para que en el largo plazo, se cumplan objetivos como que CUDA y el GPU sean un estándar de la industria en cuanto a procesamiento de datos paralelos se trate. Esto para fortalecer aun más a la empresa posicionándola como una de las que más influencian el mercado de la tecnología. Estratégicamente NVIDIA ha jugado una buena mano, pero Intel y AMD tienen mucho que decir y hacen faltan muchos años para el desenlace de esta historia. Así también, falta ver si esta estrategia, de la mano con los resultados de rendimiento real del GT200 es un paso correcto hacia esa dirección y para eso, tendrán que leer nuestro análisis de rendimiento.

(c) ChileHardWare URL ORIGINAL

domingo, 13 de julio de 2008

todos somos hancock....

el sabado en la tarde fui a comprar alcohol para la pachanga del proximo fin de semana aprovechando la "oferta" del 3X2........que al fin y al cabo te al acaban metiendo........... enfin.... parecia que habian saquedo la seccion de alcohol........ cuando llegue habia creo 2 botellas y ninguna de ellas me interesaba................ total ...... para no hacer en viaje en balde al centro comercial ...pues entre a ver Hancock...........................


un superheroe con problemas de actitud y de alcoholismo, que segun la gente lo unico que le interesa es el............... el mundo lo odia .......... pero aun asi hace su chamba....... pero un dia en la tarde le salva la vida a un pinche publucista que quiere salvar el mundo............... y decide darle una mejor apariencia a mi cuate hancock............ y todo esto para que el muchacho pueda ser aceptado y asi sea feliz................y para empezar su nueva vida....debe de pasar un cierto tiempo en el frescobote.................... 8 años de condena ......... se reducen a 5 semanas por el incremento de delincuencia............ y un robo de banco es el detonante para que hancock regrese triunfalmante........ yo dije....bahhhh ............. yo esperaba mas...... y dije bueno ya acabo la pinche pelicula y yo todavia no me acabo mi pathe........... a..... pero no............... la historia da un giro increible....... y nos muestra una historia llena de cliches....... (pero eso no le quita lo emotivo).....dandole extra que se agradece.........mostrandonos una cara de los superheroes poco vista en los cines......y por si fuera poco podemos ver que todos somos hancock......
veanla.......... chingo a mi madre sino les gusta ........

Ds vision

Pues como era de esperarse, ya salio a la venta el dsvision en japon y ya estan los primeros contenidos descargables (por una modica cantidad de yenes) y bueno este servicio comenzo el 2 de julio, ya esta a la venta el kit que contiene una tarjeta ds con ranura de micro sd, un usb con ranura para la micro sd y bueno el software dentro de la tarjeta ds claro, y pues segun esto esta jalando un chingo, estan los primeros cuatro capitulos de series como "la abejita hutch, meteoro" (de las que conocemos y bueno otras que solo en su rancho las conocen y tambien libros descargables (autores japoneses claro) y galerias de fotos, ahora la cuestion es la siguiente; ¿Cuando va a llegar a america?, pues quien sabe por que ahorita estan probando como jala gente en japon, de eso depende, lo mas seguro es que si traigan el paquete antes mencionado a america. y bueno el servicio pues ya se la arreglaran ellos el link esta aca, chequen la pagina, no van a entender ni madres pero piquenle a todas las ligas que vean, es algo tedioso ver simbolitos y no saber que quiere decir pero ahi se dan una idea. El problema es saber si se va a poder meterle cuanta madre se te ocurra al ds en cuanto a musica, video, imagenes etc. etc. y en que formato (como esta la pagina en japones pues ni como decirles si se va a poder, me imagino que si, no seria rentable comprar tu chingadera para descargar cosas que te cobran) pero bueno esperemos que llegue a america y ya despues veremos, ademas yo creo que va estar cariñoso por lo que trae la mugre esa (pero pues igual y en tepito la encuentras sola la tarjeta ds, jajaja ahi encuentras todo)

Lo bueno de todo esto que si llega america ya no me preocupo por que ya tengo mi micro sd y mi puerto usb con ranura de microsd, (aunque en el paquete va a venir quieras o no, solo que salga uno con la pura pinche tarjeta ds que trae el software y la ranura para la tarjeta.

Bueno aumentando algo por que ya le investigue y si yo creo que sile vas apoder lo que quieras a la madre esa por que en este link esta para que descargues el software y manejes tu archivos, peliculas tus documentos (formato pdf), tu musica, bueno los iconitos que salen estan claros y eso indican que si.

ahora si hay la vemos luego

jueves, 10 de julio de 2008

que toda su pta madre!!!

............... estos dos ultimos dias es la frase que mas he dicho, creo...... digo esta bien que chinguen.. pero a su madre me la respetan........ pa los que me conocen..... saben que tengo una rara adiccion a mi entrenamiento y como todo adicto.....que le pasa a un adicto sino consume su droga... se pone bien pendejo...... pues yo llevo 3 dias sin mi droga...... asi que estoy esperando que la vida conocida en este pinche planeta se extinga.............. y hoy en verdad fue la gota que derramo el vaso.......... por que??
martes 6:30
yo-ya vamonos cabron... no vamos a llegar.......todavia tenemos que pasar a tu casa
elptodemiamigorobandosemiwifi-no mames... quieres llegar a barrer.....
yo-que la verga....bueno
miyointeligente-si... no mames es re temprano, acuestate a ver la tele en lo que este pendejo acaba de bajar su porno......
yo-ok

martes 7:10
yo-que toda su pta madre... te dije que ya era tarde....
elptodemiamigorobandosemiwifi-ya pto ...ya... si llegamos

martes 8:07
elptodemiamigorobandosemiwifi-podemos pasar??
profa-no... hasta mañana ...........
yo-que toda su pta madre.... ya ves pendejo te dije.... te dije...
elptodemiamigorobandosemiwifi-yo que??...elpinche microbusero que hizo 30min de base.....

miercoles 6:30
yo-voy acomodar mis cosas para no llegar tarde
miyointeligente-muy bien pensado...orale, muevete cabron....

miercoles 7:08
miyointeligente- vete hasta la base ..y asi te ahorras la pta mediahora de base
yo-ahuevo.....

miercoles 7:25
yo-ahuevo...hoy voy allegar al 20... sin pedos....
miyointeligente-ya ves guey..... te lo dije....

miercoles 7:28
yo-que toda su pta madre...donde estan esos ptos micros de mierda.....
miyointeligente-no mames.... esta cerrada la pta avenida..... vele a preguntar a los pinches checadores de la esquina...
yo-ok ok....... (despues de 30 pasos).... disculpe... si estan pasando los micros??
checadorquenoerachecador-pues deben, no??....yo tambien la estoy esperando.......
yo-que toda su pta madre.........
miyointeligente-...vele a preguntar al policia....
yo-(despeus de 30 pasos)...si estan pasando los micros??
policiademierda-seeeeeee..... alla en la esquina.......
miyointeligente-ya ves te dije.... vamos a la otra esquina......

miercoles 7:40
yo-.......que toda su pta madre............no hay micros....... ya no llegue........ igual y hasta el cebestias estan pasando.......

miercoles 7:48 (despues de 1km) y la pta avenida cerrada por que estaba inhundada
yo-........ahhhh...no mames me va dar una embolia.... ....
miyointeligente-espera pendejo..... hay un micro... andale corre......

miercoles 7:50
policias-.....no se puede pasar.......... esta cerrado......
gentedelmicro-y ahora que hacemos?.....
policias-pues...... caminar....sirve que hace buena pierda doña..............
yo-que toda su pta madre.............. ya no llegue ota ves............
miyointeligente-ya guey vamos a regresarnos
yo-no no no.... ahora voy

miercoles 8:00
miyointeligente- no mames.....falta un chingo ya vamonos de regreso...
yo-nel a la verga ya estoy a la mitad de camino...ahora voy.... y chingas a tu padre pinche chucho ojete...........no voy hacer lo que se te da tu chingada gana....
miyointeligente-callate pendejo ...sino ahorita le habla a tlaloc...suelta un pinche diluvio..... y quiero ver a donde ptas corres...
yo-(enmedio de la nada)............que toda su pta madre..............ni pa donde taparme..... ok ok...ya chngo a mi madre......
Ninja!
Google