LowLevelHardware

Los 60000 ciclos AVX 256 bit perdidos en Intel Skylake – LowLevelHardware

2017-02-02T16:20:00.000+01:00

Como todos conocéis, desde Sandy Bridge 32 nm, Intel introdujo las instrucciones AVX FPU de 256 bit en sus procesadores aumentando con ello en un factor 2 la potencia de cálculo FPU de sus CPUs respecto a Nehalem 45 nm y Westmere 32 nm.

Uno de los cores Skylake 14nm.

Con la microarquitectura Haswell 22 nm, Intel añadió el juego de instrucciones AVX2 y FMA FPU, que proporcionan proceso vectorial de enteros de 256 bit y unidades FPU Fused Multiply Accumulate combinadas respectivamente.

Intel Skylake Core i7 6700K

Hasta el momento, el Core i7 6700K es la CPU x86 quad core más rápida que he probado y además con un consumo de energía excelente. Y muy adecuada para cálculo matemático gracias al soporte AVX 256 bit y FMA junto a sus 8 threads simultáneos y el brutal ancho de banda de un dual channel DDR4 a frecuencias superiores a los 3 GHz.

En este artículo quiero resaltar una particularidad de los últimos procesadores Skylake 14 nm(Intel Core de sexta generación) que he comprobado en samples de Core i7 6700K configurados a 4.4 GHz.

Esta peculiaridad es el ahorro de energía en el que mantienen las unidades de cálculo vectorial de 256 bit cuando no están en uso, es decir, en las tareas más habituales del sistema operativo que no suelen involucrar cálculos FPU.

Es en el momento de lanzar un cálculo que actiave estas unidades de 256 bit, cuando se produce un fenómeno curioso.

Los 60000 ciclos AVX perdidos en Intel Skylake

Al inicio, y de manera sorprendente, la velocidad de proceso es de unas 4 a 6 veces inferior a la nominal en proceso AVX FPU, debido a que las unidades permanecen en ese estado latente de bajo consumo, probablemente con los 128 bit superiores deshabilitados y los datapath de 256 bit desactivado.

Tras un tiempo, dependiente de múltiples factores (la frecuencia de nuestro procesador, quizás de ajustes en la BIOS de nuestro sistema y también de peculiaridades o ajustes de nuestro sistema operativo) la velocidad de cálculo llega a su valor típico y normal y se mantiene ahí hasta finalizar el cálculo.

Intel Skylake quad core 14 nm

Este tiempo de rendimiento reducido ronda los 60000 ciclos (unos 13 microsegundos en una CPU a 4.4 GHz).

Puede parecer poco tiempo, pero si nuestro cálculo consiste en pequeñas ráfagas de código AVX intercaladas entre otros fragmentos de código de otro tipo, puede provocar que nuestro cálculo sea globalmente unas 2 a 5 veces más lento de lo esperado (!!).

Como solución podemos hacer que estos cálculos en ráfaga procesen a velocidad nominal (elevada) si los mantenemos próximos en el tiempo, ya que estas unidades FPU AVX de 256 bit mantienen su velocidad de proceso durante unos 3 000 000 de ciclos (equivalentes a unos 600 micro segundos en una CPU a 4.4 GHz), después de los cuales retornan al estado de reposo y bajo rendimiento.

Otra solución consistiría en ir lanzando “de vez en cuando” algunas instrucciones AVX 256 bit para “despertar” las unidades FPU momentos antes (unos 60000 ciclos) de que lleguemos a ejecutar nuestro importante código AVX 256 bit.

Echad un vistazo a la web de mi nueva empresa, un proyecto de gran envergadura que llevo preparando hace más de un año.

Os lo recomiendo para diseño de sistemas de altas prestaciones:

Allí tenéis a vuestra disposición el formulario de contacto, para consultas sobre este artículo hacedlo más abajo en la sección de comentarios.

Y mi nuevo Blog de contenido muy técnico y actualizado donde encontraréis artículos míos sobre hardware, procesadores y sistemas y también otros posts de expertos programadores e informáticos sobre otros temas de actualidad:

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

BIOS y ahorro de energía memoria en DDR3 o DDR4 – LowLevelHardware

2017-02-02T16:19:00.001+01:00

Si somos usuarios de un sistema con una placa base de gama media o gama alta tendremos a nuestra disposición cientos de ajustes en BIOS para optimizar nuestra máquina.

Ajustes manuales DDR3.

Estos ajustes finos ciertamente pueden marcar la diferencia y hacer que nuestro sistema sea muy superior en todos los aspectos a uno configurado con los mismos componentes por defecto:

Rendimiento y velocidad de proceso muy superior (más del 50%).
Temperaturas mucho más controladas en cada componente.
Menor nivel de ruido de refrigeración.
Consumo total de la máquina muy reducido (en ocasiones en cientos de watt).

Sería fácilmente cuestión de cientos de artículos y cientos de miles de palabras detallar estos ajustes y todas sus posibles combinaciones en función del hardware específico, requiere un minucioso estudio de los whitepapers de cada procesador, chipset, placa base e implementación específica de cada BIOS.

En este artículo me referiré a una máquina con un procesador Core i7 3770K hand picked (seleccionado entre decenas de samples) configurada a 4.4 GHz a un voltaje muy reducido de solo 0.020 V superior al nominal mediante offset y con estabilidad absoluta con estos ajustes.

DRAM Power Management and Initialization

Aquí dejo enlaces a los Datasheet PDF relativos a:

La tercera generación Intel Core, Ivy Bridge 22 nm. (parte 1, parte 2).

La cuarta generación Intel Core, Haswell 22 nm. (parte 1, parte 2).

La quinta generación Intel Core, Broadwell 14 nm. (parte 1, parte 2).

La sexta generación Intel Core, Skylake 14 nm. (parte 1, parte 2).

En la sección 4.3.2 del manual en PDF 3rd-gen-core-desktop-vol-1-datasheet.pdf se detallan los ajustes que nos interesan relativos a la gestión de energía de las controladoras de memoria del procesador y de los módulos DDR3.

DRAM Power Management and Initialization

En síntesis, los ajustes posibles serían:

Deshabilitar totalmente la gestión de energía para obtener las máximas prestaciones (opción 1 de la captura inferior).

Buscar un compromiso óptimo entre prestaciones y consumo (APD – PPD, opción 5).

Ir al máximo ahorro energético, menor consumo y disipación térmica (opción 4).

DIMM Power Down modes.

En todas las máquinas que diseño me decanto por el ajuste central, el punto 5, APD – PPD, el óptimo compromiso.

El modo APD – PPD ofrece el compromiso perfecto.

En el caso que nos ocupa se consiguen ahorrar 6W de consumo en reposo (idle) y en uso normal (internet, compresión de datos, …) se mantiene en valores similares.

Es importante configurar el siguiente ajuste:

DDR DIMM Fast Exit Mode proporciona ahorro de energía con baja latencia de salida.

Con el ajuste de ahorro de energía deshabilitado no se consigue más velocidad de proceso ni mejores tiempos de cálculo en coma flotante o compresión de datos… pese a lo que sea lógico pensar.

Por ejemplo en WinRAR 5.21 x64, las velocidades y consumos son los siguientes:

Ajuste APD – PPD. Consumo de 94 a 109W y velocidad máxima 10459 KB/s.

Ajuste disabled. Consumo de 98 a 112 W y velocidad máxima 10467 KB/s.

Como podéis ver, no hay cambios significativos en la velocidad de compresión de datos y en cambio se ahorran 3 – 4 W en este test intensivo de memoria.

WinRAR en modo APD – PPD.

Como antes he señalado, en modo de reposo en el escritorio de Windows, se consiguen 6 W de bajada de consumo en el enchufe para un total de 48W (con 16 GB DDR3 2133 y el ajuste @ 4.4 GHz, SSD Samsung Evo 850 250 GB, disco duro 4 TB WD Caviar Black, tarjeta gráfica AMD 260X GCN 2 GB, tarjeta de sonido SB X-Fi y unidad óptica) desde los 54W con el ahorro de energía de la memoria DDR deshabilitado.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

Memoria G.Skill DDR4 4133 – LowLevelHardware

2017-02-02T16:18:00.000+01:00

G.Skill ha lanzado al mercado módulos DDR4 de 8 GB @ 4.133 GHz y 1.40 V para los procesadores Core i7 de sexta generación Skylake de 14 nm, los Core i7 6700K.

Core i7 Skylake 14 nm 6700K funcionando a 4.2 GHz.

Los roadmap oficiales JEDEC para DDR4 ya apuntaban desde los inicios del standard a velocidades máximas nominales de 4.266 GHz, del mismo modo que en su día, al lanzar en sus inicios la DDR3 se habló de 1.6 GHz y posteriormente 2.133 GHz.

A día de hoy, módulos de este tipo son de una utilidad limitada por sus pésimos timings, llevados al límite para lograr estabilidad a frecuencias superiores a los 4 GHz:

Memory timings de G.Skill DDR4 4133.

Como vemos a 3.6 GHz todavía conserva buenos timings de 16 16 16 36 2N pero al llegar a 3.866 GHz y 4.0 GHz se degradan mucho hasta los 18 22 22 42 2N y 19 21 21 41 2N respectivamente.

Perfiles XMP del módulo 8 GB DDR4 G.Skill 4.133 GHz.

Lo notable es el voltaje de solo 1.35 V, que no es elevado pensando en las altísimas frecuencias.

En el ajuste de 4.133 GHz necesitan ya un voltaje de 1.40 V y empeoran las latencias hasta 19 25 25 45 2N… simplemente para “homologar” que llegan a esa frecuencia para un ancho de banda por canal de 33.064 GB/s (66.128 GB/s en dual channel).

A 4.133 GHz se degradan en gran manera los timings.

Seguramente yo me quedaría con el ajuste a 3.6 GHz a 16 16 16 36 2N @ 1.35 V en dual channel por su baja latencia. Este ajuste daría un ancho de banda de 28.8 GB/s por canal para un total de 57.6 GB/s, ¡¡simplemente brutal!!

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

AMD Excavator 28 nm – LowLevelHardware

2017-02-02T16:15:00.002+01:00

Ya a finales de 2015, AMD nos trae la cuarta y última iteración de su arquitectura Bulldozer inicialmente lanzada en el nodo 32 nm HKMG de Global Foundries.

Dos módulos AMD Excavator (cada uno con 2 INT cores) con 2 cachés L2 de 1MB.

Tras eliminar numerosos bugs, activar unidades deshabilitadas en Bulldozer (generación 1) como la IDIV y reducir paulatinamente el consumo con Piledriver 32 nm (generación 2) y Steamroller 28 nm (generación 3) además de ir lentamente aumentando el IPC, llega Excavator 28 nm con mejoras incrementales en muchos aspectos y también alguna pequeña revolución.

Excavator. los cambios más importantes respecto a las generaciones anteriores:

Reducción de la caché L2 de 2 MB a 1 MB por módulo con una importante reducción de área y mejorando la latencia. 2 MB L2 era demasiado para este tipo de cores fabricados en 28 nm, un mal compromiso área / prestaciones.

AMD Excavator L1d: 32 KB 8 vías.

Por fin se dobla el tamaño de la caché L1d de 16 KB a 32 KB por INT core y su asociatividad aumenta hasta las 8 vías. Por fin AMD ha visto la luz en cuanto al diseño de la caché L1… 32 KB con 8 vías es un excelente diseño. Era una mejora muy necesaria.

Dos módulos AMD Steamroller (cada uno con 2 INT cores) con 2 cachés L2 de 2 MB.

Desgraciadamente, AMD no puede fabricar actualmente en nodos de 20 / 22 nm ni en los nuevos nodos de 14 nm (como su rival Intel) con el fin de reducir el área de sus productos y con ello su coste de fabricación.

Solución de los ingenieros de AMD: seguir en los 28 nm pero reduciendo el área (superficie) de sus chips implementando librerías de alta densidad procedentes del mundo del diseño de GPUs:

Con el uso de librerías de alta densidad AMD logra reducir el área de Excavator.

Gracias a estas mejoras se cifra en un 30% la reducción de superficie.

A todas estas nuevas técnicas se añaden las mejoras importantes que Steamroller 28 nm ya introdujo respecto a sus antecesores de 32 nm, Piledriver y Bulldozer:

La L1i compartida para los 2 INT cores aumentó a los 96 KB y una asociatividad de 3 vías (representó un gran avance sobre los 64 KB / 2 vías, aunque 3 vías sigue siendo poco, muy poco para dos threads).
El decoding doble por módulo, uno para cada INT core, un cambio que esta microarquitectura (Bulldozer) pedía a gritos…

Excavator y el segmento de 15 watt:

Hay que tener claro que AMD busca reducir el consumo y disipación térmica de sus SOCs por todos los medios posibles y por ello ha optimizado críticamente Excavator y su primera implementación comercial, las APU Carrizo con 4 INT cores y 8 clústeres GCN 2 (Radeon R7).

Por ello ha optimizado el conjunto de 4 INT cores + 8 clústeres GCN 2 + controladoras DDR3 y resto de circuitería para un TDP de 15 watt, que se extenderá fácilmente a los 35 watt.

AMD Excavator: excepcional rendimiento en 15 watt. Con 35 watt menor ventaja.

Esto significa que cuanto mayor frecuencia le pidamos a Excavator, menor ventaja mostrará respecto a sus antecesores. No esperéis diseños de Carrizo de 100 watt a frecuencias de 4 GHz o más.

Las frecuencias iniciales rondarán a 35 watt los 2.1 GHz con Turbo hasta 3.4 GHz con los cores gráficos a 800 MHz y soporte de DDR3 2133 en el modelo tope de gama, el FX-8800P.

No está nada mal para 35 watt, un excelente resultado.

Conclusiones

AMD prepara el desembargo de Zen 14 nm, seguro que no sin numerosos problemas. Recordemos que va a utilizar el nodo de 14 nm de Samsung (ya fabrica los SOCs de los Galaxy S6 con esta tecnología) y no estará exento de dificultades el diseñar un chip tan complejo como Zen en un nodo y proceso de fabricación tan sumamente diferente de los actuales.

El puente hacia Zen son los chips con cores Excavator y AMD ha demostrado que ve claras las necesidades del mercado con su enfoque en el segmento de los 15 watt.

Excavator parece que dará mucha guerra en el segmento de los UltraBooks, será un chip muy equilibrado en TDPs de 15 a 35 watt, en este sentido, incluso creo que puede ser un gran rival respecto a los Core i5 de la serie U.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

AMD Steamroller core. AMD Kaveri. Parte 2 – LowLevelHardware

2017-02-02T16:15:00.001+01:00

La primera implementación comercial de los cores Steamroller 28 nm es en las nuevas APU Kaveri, formadas por 2 clústers de 2 INT cores y una FPU y dos cachés L2 de 2 MB junto con la GPU integrada basada en la última generación de gráficas Radeon GCN 2.0.

Die de AMD Kaveri 28nm. En naranja la GPU Radeon R7.

El proceso de fabricación de 28 nm SHP de Global Foundries

AMD ha dado un paso decidido que marca una nueva etapa para la compañía: deja los procesos de fabricación orientados solamente a altísimas frecuencias (superiores a los 4 GHz) y opta por el contrario por procesos Bulk dirigidos a menor consumo, menor área con una penalización en frecuencia máxima.

Es decir, un procesador fabricado en el nuevo nodo de 28 nm SHP presenta mayor densidad de transistores por mm2, menor coste de fabricación, menor consumo a una frecuencia dada (por ejemplo en el rango hasta los 4 GHz aprox.) a costa de frecuencias pico inferiores.

A mi modo de ver una sabia y completamente acertada decisión, ya que, anteriormente, AMD no podía desplegar el potencial verdadero de frecuencia de la microarquitectura Bulldozer debido a su excesivo consumo al ir subiendo la frecuencia de funcionamiento con el necesario aumento exponencial de voltaje.

Es de esperar por ello, que desde ahora AMD se dedique a integrar más funcionalidades en cada uno de sus chips (más cores, más potencia de GPU…) ya que tiene un nuevo margen de disipación térmica máxima o TDP.

El core Steamroller

EN la tercera iteración de la familia de cores 15h, microarquitectura Bulldozer para los amigos, AMD ha hecho cambios realmente importantes respecto a la primera y segunda generación.

Un cluster de arquitectura Steamroller: 2 INT cores, 1 FPU y 2 MB de L2.

Fotografía de un clúster Steamroller perteneciente a un die AMD Kaveri 28nm.

EN AMD Kaveri se integran dos Clústers completos para un total de 4 INT cores:

AMD Kaveri: Dos clústers Steamroller 28nm con sus cachés L2 enfrentadas.

En el siguiente artículo me centraré en las mejoras, muy extensas, introducidas por AMD en Steamroller.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

AMD Steamroller. Introducción. – LowLevelHardware

2017-02-02T16:15:00.000+01:00

El 14 de Enero AMD sacó al mercado su tercera iteración de la micro arquitectura Bulldozer en la forma de la APU Kaveri fabricada por Global Foundries es el nodo Bulk SHP (Super High Performance) de 28 nm. En este caso se trata de una implementación de dos módulos con dos INT cores y una FPU compartida junto con una excelente GPU GCN 1.1 de 512 SPs.

La micro arquitectura AMD Bulldozer

Primero fue Bulldozer 32 nm HKMG, después Piledriver 32 nm HKMG y ahora Steamroller 28 nm Bulk SHP. Posteriormente, 2015, está previsto Excavator, la evolución final y que pondrá término a esta micro arquitectura. Después preveo que AMD, por fin, se centrará en diseñar cores de alto IPC y menor consumo para competir con mayor igualdad con los cores contemporáneos de Intel.

Como muchas veces ha sucedido con los diseños de AMD, en su primera versión.

En este caso Bulldozer 32 nm HKMG (AMD FX 8150) las prestaciones, consumo y disipación térmica no fueron las esperadas.

Piledriver 32 nm HKMG (AMD FX 8350) alivió ligeramente los problemas de consumo y mejoró las prestaciones.

Con Steamroller AMD plantea un cambio mucho más profundo:

Una evolución de la micro arquitectura mayor que en el caso de Bulldozer a Piledriver, con claras mejoras en algunos campos y otros cambios no tan claros en otros aspectos.
Un nuevo nodo de fabricación: del ya antiguo nodo premium HKMG 32 nm de Global Foundries utilizado en Bulldozer y Piledriver se pasa al nodo de 28 nm Bulk SHP, más orientado a menor consumo y mayor densidad (más transistores por mm2), es decir menor coste por chip y menor TDP, es decir, mayor performance per watt.

En la segunda parte de esta serie de artículos detallaré las mejoras implementadas en Steamroller por AMD y lo que significan de cara a sus encarnaciones presentes:

La APU Kaveri y los futuros chips FX Steamroller de alto rendimiento del que parece que están preparando una versión con 8 módulos y 16 INT cores con controladoras PCIex 3.0 integradas en el die del chip (lo que permitiría deshacerse del North Bridge del chipset) que probablemente funcionará a frecuencias conservadoras en carga full threaded aunque con agresivos modos Turbo.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

Intel Silvermont 22nm. Micro arquitectura. Etapas de Fetching – LowLevelHardware

2017-02-02T16:14:00.001+01:00

En un artículo de ProfessionalSAT he hecho una introducción al nuevo procesador Atom Silvermont de 22 nm de Intel. Recomiendo la lectura de ese texto para estar familiarizado con algunos de los conceptos que son utilizados en el presente.

El mayor cambio en Silvermont respecto a los anteriores cores de la familia Atom es el cambio al procesamiento Out of Order (OoO) desde el primitivo concepto de ejecución In Order.

Ahora voy a describir, paso a paso, el pipeline de ejecución de Silvermont y las mejoras que aporta respecto a los antiguos cores (Bonnell 45 nm, Saltwell 32 nm).

Mejoras en las etapas de Fetch

Las etapas de fetching o carga de instrucciones son las primeras del pipeline de ejecución de cualquier procesador.

En Silvermont se ha llevado a cabo un rediseño profundo encaminado a alimentar adecuadamente de instrucciones a la nueva maquinaria de procesamiento out of Order.

Fetch en Atom Silvermont 22 nm.

La predicción de saltos o Branch Prediction ha sido totalmente reconstruida de un modo distinto a los antiguos Atom. Se ha dividido en dos componentes independientes que actúan cada uno por separado y están situados en diferentes etapas del pipeline de procesamiento.

El primer componente es el Predictor de Fetching (Fetch Predictor). Es un Branch Target Buffer, un predictor de baja latencia y con una precisión elevada pero no extrema.

La unidad de Fetching carga cada ciclo 16 bytes de instrucciones desde la caché L1i con ayuda del L1 iTLB en los 6 Prefecth Buffers. Estos buffers aíslan las etapas de fetch de las posteriores etapas de decodificación X86 y así puede adelantarse a estas en el stream de instrucciones.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

Electromigración en microprocesadores – LowLevelHardware

2017-02-02T16:14:00.000+01:00

Todos los componentes, tanto los mecánicos como los electrónicos, están sometidos a un desgaste por el uso y en este grupo incluyo a los microprocesadores, cachés y chips de memoria DRAM y Flash.

Microfotografía: creación de un cruce entre dos conductores por electromigración.

En un nuevo artículo en ProfessionalSAT profundizo en la relación temperatura – degradación física de semiconductores:

Temperatura y degradación física en semiconductores –ProfessionalSAT

Recientemente he sufrido personalmente los efectos de la electromigración en varios de mis sistemas junto con otros de mis clientes, todos ellos de una antigüedad similar. En este caso, la degradación y posterior avería se ha producido en la memoria DDR3 de algunos de mis Sistemas de Altas Prestaciones basados en CPUs Core i7 de la serie 900.

Por ejemplo, un disco duro se degrada día a día durante su utilización normal y conforme pasan los meses podemos seguir la variación de sus parámetros de funcionamiento mediante la tecnología SMART que nos informa crípticamente del estado de salud del dispositivo. (Prometo un artículo sobre SMART cuando tenga tiempo…)

Electromigración

En dispositivos altamente miniaturizados como una CPU / GPU o un chip DRAM DDR3 o GDDR5 (memoria actual de las GPUs) se da una degradación constante de sus características eléctricas. La electromigración es el proceso causante de la mayoría de fallos en este tipo de dispositivos.

La electromigración consiste en el arrastre y transporte de los átomos metálicos del conductor por el constante flujo de alta intensidad de electrones que lo atraviesa.

Se da una transferencia de momento (cantidad de movimiento) del electrón al núcleo metálico (literalmente lo golpean mayoritariamente en una dirección y sentido) y el núcleo va avanzando paso a paso en el sentido de la corriente creando dos tipos de anomalías:

Huecos: hay zonas que literalmente se vacían de metal, incrementando la resistencia del conductor y eventualmente provocando un fallo total del dispositivo por corte de corriente.

Formación de huecos por electromigración.

Este hueco ha causado un fallo total en el dispositivo al interrumpir la corriente.

Acumulaciones: en otras zonas, el material metálico se agrega y crea áreas de mayor contenido metálico, se incrementa la sección del conductor y puede llegar a crear puentes de conducción con líneas adyacentes llevando también al fallo del dispositivo.

Puente metálico entre dos conductores creando un corto circuito.

En casos extremos la creación de acumulaciones puede llegar a fracturar el aislante y crear corto circuitos con zonas vecinas.

Factores que influyen en el proceso de electromigración

Favorecen la electromigración:

Las altas temperaturas. Se produce un incremento en la resistencia eléctrica del conductor metálico y aumentan las vibraciones atómicas de los núcleos metálicos.

Consultar: Temperatura y degradación física en semiconductores –ProfessionalSAT

Las corrientes elevadas (altas intensidades). A mayor flujo electrónico, mayor transferencia de momento de los electrones a los átomos metálicos de cobre o aluminio.

La poca sección de los conductores. A menor sección mayor densidad de corriente y más electromigración. En microprocesadores contemporáneos, de 32 nm (o 28 y 22nm), está claro que este factor es importante.

Minimizar los efectos de la electromigración

Está claro que debemos hacer lo posible para eludir los catastróficos efectos de la electromigración:

Debemos reducir la temperatura de funcionamiento de nuestros procesadores y memorias DRAM al mínimo posible:

Mediante el uso de los mejores sistemas de refrigeración disponibles.

El uso de una pasta térmica adecuada a la superficie del radiador de CPU (según la rugosidad de la base).

Un detallado estudio del flujo de aire es necesario en ciertos sistemas.

Y el exhaustivo estudio de la circulación del aire en la torre y la optimización de las presiones y flujos de aire.

Uno de mis Sistemas de Altas Prestaciones con 6 DIMM DDR3 refrigerados por dos Noctua.

En el caso de los módulos DIMM de memoria DRAM DDR3 o la memoria GDDR5 presente en las GPUs actuales, lo único que podemos hacer es garantizar sobre ellas el mayor flujo de aire posible y a una temperatura adecuada. (Fotografía superior).

Daños en un conductor por electromigración.

Es importante mantener el voltaje de alimentación del dispositivo en el mínimo posible que garantice la estabilidad del sistema y la exactitud total en nuestros cálculos o procesos.

A ser posible es recomendable escoger manualmente los procesadores y los módulos de memoria (hand picking) seleccionando los que posean las mejores características eléctricas (menor voltaje de funcionamiento a la frecuencia deseada u objetivo).

Proceso de electromigración, creación de un hueco.

En mis Sistemas de Altas Prestaciones sigo todas estas directrices a rajatabla y aún así no me he librado de los efectos de la electromigración como podéis observar en mi artículo de ProfessionalSAT.

Echad un vistazo a la web de mi nueva empresa, un proyecto de gran envergadura que llevo preparando hace más de un año.

Os lo recomiendo para diseño de sistemas de altas prestaciones con exquisito cuidado en las temperaturas de los componentes y siempre con los menores voltajes posibles para garantizar la mejor durabilidad y rendimiento:

Allí tenéis a vuestra disposición el formulario de contacto, para consultas sobre este artículo hacedlo más abajo en la sección de comentarios.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

nVidia Kepler 28 nm – LowLevelHardware

2017-02-02T16:13:00.001+01:00

Por fin ha llegado la nueva serie 600 de nVidia, su primer integrante es la GTX680 fabricada en el nodo de 28 nm en TSMC. En este conciso artículo esbozaré los importantes cambios arquitecturales respecto a la anterior generación 500 Fermi de 40 nm y la motivación tras ellos.

El die del procesador gráfico Kepler.

El nuevo proceso de fabricación de 28 nm ha proporcionado grandes avances para la industria de semiconductores después de los terribles problemas y largos retrasos de TSMC en el nodo de 40 nm.

Cambios de micro arquitectura en Kepler

nVidia deseaba para Kepler un masivo incremento en prestaciones gráficas, de hecho, en cada punto del diseño se aprecia un decidido énfasis en el aspecto gráfico dejando claramente descuidada la parte GPGPU.

Se ha conseguido un aumento notable de la densidad de transistores y con ello una apreciable reducción de la superficie del chip: nVidia ha integrado 3500 millones de transistores en tan solo 294 mm2. Recordad que Fermi (GTX 580) era un chip de más de 500 mm2, muy caro de producir.

La GTX680 es un avance significativo para nVidia en el aspecto gráfico, integra 1536 SPs (stream processors), un aumento espectacular (3X) desde los 512 SPs de la GTX580 Fermi.

Todo ha sido posible por el abandono del shader clock, que era el doble de la frecuencia principal y aumentaba mucho el consumo del chip y hacía necesario el uso de transistores especiales para los SPs ya que funcionaban sobre los 1.5 GHz.

Sin duda en unos meses nVidia sacará a la luz otra revisión de Kepler, probablemente sobre los 500 - 600 mm2, enfocada a proceso general para sus líneas de computación Tesla y Quadro y para la gama más alta de sobremesa.

Será el llamado Big Kepler y conllevará un aumento en el ancho del bus GDDR5 a 384 o incluso 512 bits y sobretodo un incremento notable en la tasa de cálculo FP64 (que en Kepler ha sido reducida al 33% de la de Fermi por SP).

Además Kepler integra un modo “Turbo” llamado Boost Clock. Si la disipación térmica y la temperatura lo permiten, Kepler aumenta su frecuencia desde la nominal hasta alrededor de los 1150 MHz, según las cargas de trabajo.

El SMX, sustituto del SM

En Kepler nVidia llama SMX a la unidad funcional principal del diseño, en el SMX reside todo el poder de cálculo del chip.

El SMX es el heredero del SM de las GTX 480 y GTX 580. nVidia ha duplicado los recursos de cada SM para producir un SMX.

En un SMX reside un gran número de unidades de todo tipo:

Desde la segunda revisión del PolyMorph engine (con un throughput doble respecto a la generación anterior),

Pasando por la caché de instrucciones,

Los 4 Warp Schedulers,

8 unidades Dispatch (Dispatch Units),

El Register File (RF) duplicado a 64K entradas de 32 bit,

192 CUDA Cores (SPs),

32 unidades Load Store (LSUs)

16 SFUs para interpolación,

16 SFUs para funciones especiales,

16 TUs (unidades de textura),

Por último 8 CUDA FP64 cores.

Kepler GTX 680

En esta implementación nVidia integra lo siguiente:

4 GPCs que integran cada uno 2 SMX junto con un Raster Engine encargado de la rasterización.

También integra la caché L2 y las cuatro controladoras GDDR5 de 64 bit a 6 GHz.

En Kepler nVidia ha decidido simplificar absolutamente sus schedulers respecto a los de Fermi. En Fermi se realizaba scheduling por hardware dinámicamente, en cambio en Kepler nVidia ha movido el scheduling al driver gráfico, es decir, se ejecuta por software en tiempo real en el procesador.

Este hecho ha permitido, por un lado reducir mucho la complejidad del diseño y por otro reducir el consumo, disipación térmica y el área del chip.

GPU Boost

Podemos decir que en esta primera implementación “limitada” de GPU Boost su efecto es limitado, nVidia lo cifra en un 5% de incremento de velocidad en juegos (FPS).

Mientras haya margen de consumo y temperatura disponible, Kepler puede aumentar su frecuencia hasta los 1150 MHz en pico (sobre un 15 %). Siempre dependiendo de la carga de trabajo.

La frecuencia media en modo Boost llega a los 1058 MHz y se incrementa desde los 1006 MHz en escalones de 13 MHz. En la práctica es crítico mantener bajas temperaturas para que GPU Boost sea efectivo, a temperaturas >70ºC la GPU se ve obligada a ir reduciendo paulatinamente la frecuencia y el voltaje para “evitar sustos”.

Conclusiones

Kepler (GTX 680) es más rápido en juegos (en general) que AMD GCN (HD7900). AMD ha diseñado una arquitectura de carácter general, excelente en computación FP (GPGPU, OpenCL) y muy buena en proceso gráfico (juegos).

Por su parte nVidia ha optado por poner énfasis en la parte gráfica y ha diseñado Kepler para el gamer que nunca o raramente usará OpenCL o programas de coproceso GPGPU.

Hoy por hoy Kepler es más eficiente que AMD GCN en juegos y es la elección óptima para este uso. En proceso general – computación GPU, en cambio, AMD GCN es infinitamente superior.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

Si tenéis dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima celeridad y claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

AMD Piledriver core. Actualizado 04/03/2012 – LowLevelHardware

2017-02-02T16:13:00.000+01:00

En este artículo voy a describir alguna de las mejoras micro arquitecturales implementadas por AMD en la primera evolución de la arquitectura Bulldozer que próximamente verá la luz en los APU Trinity 32 nm.

Al final del artículo comento la adopción de AMD para Piledriver de la nueva tecnología RCM (Resonant Clock Mesh) de distribución de señal de reloj de Cylos Semiconductor.

He modificado totalmente la sección de conclusiones con los cambios que considero necesarios a esta micro arquitectura para que algún día despliegue toda su potencia oculta. La arquitectura Bulldozer es capaz de mucho más.

Por cierto, echad un vistazo a los comentarios de este artículo, pues hay información muy interesante y respuestas a algunas preguntas comunes.

La fotografía de Piledriver muestra algunos cambios frente a Bulldozer.

Estos nuevos cores de procesamientos estarán disponibles en dos variantes no idénticas:

- Primero aparecerán en Trinity 32nm, el sustituto de los actuales Llano 32 (AMD A8, A6 y A4) con GPU Radeon integrada.

- En una segunda etapa, hacia Q3 2012, se actualizarán los cores Bulldozer de los chips AMD FX 32 nm con núcleos Piledriver de segunda generación derivados de los integrados en Trinity. Son los que considero más interesantes.

La nueva AMD

Tras la salida de Dirk Meyer, AMD ha cambiado de manera importante sus objetivos, ahora ya no pretende alcanzar a Intel en prestaciones puras por core (IPC). Dirk luchó por ello con los pocos recursos que le dejó la desastrosa gestión anterior de sus antecesores.

Fueron años de despilfarros que malgastaron los enormes beneficios de la época de gloria de los AMD Athlon, Athlon64 y Opteron.

La lucha en IPC se antojaba imposible y aunque lo pretendiesen es simplemente absurdo dado el altísimo perfeccionamiento alcanzado por Intel y su arrolladora cadencia de producción de nueva micro arquitectura y nuevo proceso de fabricación en años alternos (Intel Tick Tock). Sobretodo sabiendo que actualmente Intel ostenta de un 20 a un 50% de ventaja en IPC por core y a igualdad de reloj.

Roadmap de sobremesa 2012 – 2013. A finales de año llega Piledriver.

AMD con su nueva estrategia ve un futuro para sus procesadores con un diseño SOC, muchos de ellos fabricados en procesos Bulk (más dirigidos a bajos consumos y no tan altas frecuencias) y no los caros SOI HKMG actuales, pensando más en el rendimiento por watt que en rendimientos absolutos.

AMD Piledriver core

Toda la información expuesta a continuación ha sido extraída de la reciente revisión de la Guía de Optimización Software para la Familia 15h de AMD:

Software Optimization Guide for AMD Family 15h Processors.

Los integrantes de la micro arquitectura Bulldozer estan divididos en varias familias y estas a su vez en modelos:

- Los actuales cores Bulldozer (AMD FX 32 nm) son denominados familia 15h y modelos 00h - 0fh (0xh). Incluyen caché L3 de 8 MB:

- Los cores integrados próximamente en Trinity son familia 15h y modelos 10h - 1fh (1xh). No llevarán caché L3 e ira´n acompañados de una GPU integrada de la familia Radeon HD6000.

- Los cores integrados en el sustituto de AMD FX 32 nm serán familia 15h y modelos 20h - 2fh (2xh), contarán con caché L3, muy probablemente igual a la actual (8 MB).

Los modelos 10h - 1fh (1xh) y 20h - 2fh (2xh) incorporan cores Piledriver, de primera y segunda generación respectivamente, estos últimos con algunas mejoras adicionales.

Primera imagen de Trinity 32 nm, dos módulos Piledriver y GPU AMD serie 6000.

Las diferencias de Piledriver respecto a los actuales cores Bulldozer son las siguientes:

Mejoras micro arquitecturales en AMD Piledriver 32nm.

Entre las diferencias importantes puedo señalar las siguientes:

- El soporte para nuevos juegos de instrucciones, entre los más destacados el FMA3 de Intel.

- La ampliación de la cola de precarga de instrucciones (load queue) de la FPU de 40 a 44 entradas.

- El soporte para los formatos FPU de 16 bit.

- La ampliación del buffer L1 DTLB (el translation lookaside buffer de datos de nivel 1) de 32 a 64 entradas. 32 entradas era claramente insuficiente.

El resto de cambios serán menores y poco significativos prestacionalmente hablando.

También espero y digo espero porque no sé si AMD lo implementará o no, una sustancial mejora en la velocidad de escritura de las cachés L1d y L2 de Piledriver respecto a los horribles ratios de Bulldozer.

Esto exigiría un rediseño de las WCC (write combining caches) de Bulldozer, unos pequeños buffers de 4 KB por core (2 por módulo) que consolidan las escrituras desde las dos L1d de cada core (dentro del módulo) hacia la L2 compartida de 2 MB.

En la práctica es una caché L1.5d. El flujos de datos pasa desde la L1d de 16 KB a la WCC de 4 KB y de ahí a la L2 de 2048 KB.

Conclusiones e ideas generales

No me gusta Bulldozer. Es simplemente así, en 2012 la evolución de las micro arquitecturas sigue la dirección opuesta: pipelines cortos, cachés L1 de 32 KB con alta asociatividad (8 vías) y mecanismos branch prediction muy muy avanzados.

Bulldozer y Piledriver tienen un grave fallo, el Front End no es capaz de alimentar tres schedulers con 4 pipes cada uno (los dos INT cores y la unidad SIMD FMAC), nada menos que doce unidades de ejecución se alimentan de él.

Los Decoders sólo son capaces de descodificar 4 instrucciones/ciclo a partir de un fetch de 32 bytes/ciclo desde la L1i de 64 KB y dos vías, en el caso de ser instrucciones X86 simples que generen sólo una macro op.

Si hay una instrucción X86 más compleja que genera 2 macro ops, el ratio de decoding se reduce a 2 simples y una doble macro op y no 3 + 1 como sería deseable.

Y si son instrucciones X86 complejas que generen más de 2 macro ops y deban usar el microcode engine solamente se descodifica en pico una instrucción/ciclo y lo normal es que tarde bastantes ciclos en secuenciar una instrucción compleja X86 en macro ops. Y en ese tiempo no entran instrucciones en los pipes… Todo el front end se bloquea y los demás threads tienen que esperar.

Además, los decoders procesan instrucciones, hasta 4 en paralelo si son simples, pero NO pueden descodificar instrucciones de dos threads diferentes. El funcionamiento es en ciclos alternos (ciclo 1, thread 1; ciclo 2, thread 2; …) Si los dos INT cores están activos, los decoders sirven a cada INT core cada dos ciclos, dando un pico de 2 instrucciones por ciclo por INT core, insuficiente pues cada INT core posee 4 pipes.

Los INT cores poseen 4 pipes, dos de ejecución (EX0 procesa ALU y IDIV, EX1 procesa ALU, IMULT, JUMP) y dos para operaciones de lectura de memoria (AGLU0, AGLU1). En total 4 unidades de ejecución por INT core.

AMD debe trabajar en ensanchar los decoders, debería ir hacia un diseño de 6 instrucciones/ciclo y reducir el numero de instrucciones X86 que utilizan micro código. La tasa de Fetch actual (32 bytes/ciclo) es suficiente.

El diseño actual de la caché L1i (L1 de instrucciones) debe desecharse. 64 KB no son necesarios pero sí elevar su asociatividad a 8 vías (tened en cuenta que sobre ella se ejecutan 2 threads). 32 KB y 8 vías sería lo óptimo.

El diseño de las L1d me gusta pero debe aumentarse a 32 KB y sería bueno llegar a las 8 vías, aunque 4 es satisfactorio, suficiente.

Hay que trabajar en los anchos de banda en escritura, Bulldozer arroja resultados terribles en escritura o copia en L1d y L2. Hay que revisar el funcionamiento de las WCC de 4 KB por INT core.

La caché L2 debería reducirse a 1 MB o incluso 512 KB manteniendo las 16 vías y reduciendo el acceso load to use a 10 – 12 ciclos.

La política de acceso a L3 y su manejo de la coherencia deben modificarse. Los bits per core de Nehalem y Sandy Bridge deben de ser incorporados a su diseño. AMD debería ya de una vez desechar las cachés exclusivas.

También debe mejorarse la latencia de activación del Turbo Core y debe reducirse el voltaje cuando se activa. Ahora mismo un Phenom II X6 o un Bulldozer FX 8150 con Turbo core activado trabajan a voltajes de 1.35 a 1.50V, es absurdo.

En mis ensayos personales con multitud de CPUs de ambas familias consigo estabilidad absoluta a 0.10V, 0.15V o incluso 0.20V menos que los nominales a frecuencias iguales a las de Turbo Core reduciendo la temperatura y el consumo radicalmente.

Lo esencial de los modos Turbo es una respuesta instantánea de la subida de frecuencia, si no, muchas veces la frecuencia se incrementa cuando el proceso crítico ya ha concluido y lo peor, a frecuencia reducida y con sensación de lentitud para el usuario.

Se denomina Race To Idle y consiste en incrementar la frecuencia al máximo para acabar rápido el proceso y volver lo antes posible al estado mínimo de frecuencia y voltaje para ahorrar energía. AMD debería implementar esta técnica.

El Branch Prediction también reside en el Front End y es compartido por los dos INT cores y la SIMD FMAC. Carece de predicción para Loops por lo que los predice generalmente mal. Su precisión general es buena (mucho mejor que la de los antiguos Phenom II) pero le penaliza la longitud del el pipeline de enteros, la penalización tras un fallo de predicción Branch asciende de 19 a 22 ciclos (!!).

Una hipotética macro op cache implementada en las primeras etapas del pipeline de cada INT core haría milagros en Bulldozer, su efecto sería mayor que el de la micro code caché de Sandy Bridge.

Dos chips Orochi 32nm forman el nuevo Opteron Interlagos 16 cores.

De todos modos AMD está realizando progresos que quizás hagan que en un futuro próximo sea un core más equilibrado. La actualidad de Bulldozer es poca potencia de proceso single thread y un nivel de prestaciones aceptable solamente cuando el software carga los ocho threads por chip a fondo… un escenario que se da en pocas cargas de trabajo.

Nos guste o no, y estamos en 2012, el mundo sigue dominado por la velocidad de respuesta de la máquina a cargas de 1 thread. AMD debe mejorar en este sentido y en Bulldozer hay claras áreas mejorables sin mucha inversión.

Sigo siendo de la opinión de que AMD tiene un mejor core que Bulldozer, el venerable K10 de 65 nm, K10.5 de 45 nm y actualmente “K11” de 32 nm (el incluido en Llano). Con las lógicas mejoras, sobretodo en el terreno de Branch Prediction, mejora de la velocidad L2, aumento de ancho de la FPU a 256 bit y con las nuevas (y excelentes) controladoras de memoria de AMD.

Con sus pequeños cores (poco más de 9 mm2) sería factibles integrar 8 con 8 L2 de 512 KB y una L3 de 8 MB en un die con una superficie moderada… sería un muy competente rival para Intel Sandy Bridge.

El problema más grave de AMD continúa siendo el de siempre: Intel. Estoy asombrado de los progresos que llegan en alrededor de un año con Haswell 22nm… entre ellos la implementación de memoria transaccional.

Es una verdadera pesadilla para AMD tener a Intel como rival con sus agresivas políticas de desarrollo y su brutal gasto en I+D además de su ingente capacidad de ingeniería. Cada dos años lleva al mercado una nueva micro arquitectura (TOCK) que mejorar sustancialmente la anterior y encima en los años alternos, puntualmente, comercializa un nuevo proceso de fabricación (TICK) ( … 180nm > 130nm > 90nm > 65nm > 45nm > 32nm > 22nm > 14nm …) que deja prácticamente en ridículo al resto de la industria de semiconductores mundial…

AMD Piledriver RCM (Resonant Clock Mesh)

AMD y Cylos Semiconductor han informado que Piledriver integra una nueva metodología para la transmisión de la señal de reloj a todos los transistores del die.

Se denomina RCM (Resonant Clock Mesh) y permite una reducción de un 24% en el consumo de la red de distribución de reloj y globalmente un 10% global de reducción de consumo.

Sin duda es una excelente noticia, pues AMD, actualmente está limitada por disipación térmica y consumo en Bulldozer y un recorte sólo por la adopción de RCM junto con otro tanto por ciento debido al refinamiento del proceso de fabricación de 32nm HKMG SOI de Global Foundries puede dar a Piledriver una nueva vida tanto en Trinity como en el futuro AMD FX octal core.

Sin duda permitirá unas frecuencias mayores manteniendo el TDP y quizás pueda, un AMD FX basado en cores Piledriver, coquetear con los 4.6 – 4.8 GHz.

En fin… más en breve.

Echad un vistazo a la web de mi nueva empresa, un proyecto de gran envergadura que llevo preparando hace más de un año.

Os lo recomiendo para diseño de sistemas de altas prestaciones:

Allí tenéis a vuestra disposición el formulario de contacto, para consultas sobre este artículo hacedlo más abajo en la sección de comentarios.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

AMD Bulldozer. Frecuencias finales. Actualizado – LowLevelHardware

2017-02-02T16:12:00.001+01:00

Actualización 07 Septiembre 2011: Últimas noticias referentes al lanzamiento de Bulldozer y algunos datos técnicos extra al final del artículo.

Uno de los primeros MCM Interlagos compuesto de 2 dies Bulldozer de 8 INT cores.

En la web de Gigabyte hemos encontrado las especificaciones finales de los procesadores basado en núcleos Bulldozer que próximamente saldrán a la venta.

AMD Bulldozer. Por fin datos reales sobre los steppings comerciales.

Concretamente, la página en cuestión es la siguiente, correspondiente al soporte de CPUs de la placa base de socket AM3+ GA 990 FXA UD7.

En ella obtenemos alguna información extra sobre las nuevas CPUs de 32 nm de la serie FX.

Entre otros datos encontramos un TDP máximo de 125 W y la denominación B2 para el primer stepping comercial.

Bus Hyper Transport de 5.2 GHz

Todos los modelos ajustan su reloj HT3 a GT/s. Sinceramente no veo razón para ello dado el excesivo ancho de banda ya disponible a las frecuencias de Thuban (Phenom II X6), GHz.

Obviamente la razón de esta alta frecuencia de 5.2 GT/s es comercial, marketing puro.

Este bus, en los procesadores de sobremesa, se utiliza para comunicar con el chipset y con los componentes periféricos. No es necesario un ancho de banda tan alto.

La especificación HT3 hace mención de frecuencias máximas hasta los 6.4 GHz (igual que el QPI de Intel), AMD ha sido prudente y ha dejado un margen para mejoras futuras.

Frecuencias base de AMD Bulldozer

La versión de 8 cores y 4 módulos (serie FX-8000) llegará hasta los 3.6 GHz nominales, desde ahí desplegará los modos Turbo.

Como comenté en el artículo anterior, AMD ha dotado a Bulldozer de un Turbo de dos fases:

Fase 1, All Core Boost: Todos los módulos (conjuntos de dos cores con su SIMD FPU Unit y los 2 MB de L2) aumentan su frecuencia por encima de la nominal si el TDP y la temperatura lo permite.

Se da en cargas de trabajo que implique a TODOS los cores, sea con carga parcial elevada o máxima 100%.

Fase 2, Max Turbo Boost: Si dos de los módulos (cuatro INT cores, dos SIMD FPUs y dos L2 de 2 MB) se hallan en estado Sleep C6 (power gated) el resto (los otros dos módulos) pueden incrementar su frecuencia hasta en 1 GHz sobre la nominal.

Esta implementación conlleva algunas consideraciones prestacionales extrañas y fastidiosas que detallaré cuando tenga hardware funcional comercial en las manos.

Se rumorean modos Turbo de hasta 1 GHz extra, es decir, hasta 4.6 GHz en carga 100% de 2 módulos, con los otros dos módulos en estado gated CC6.

En este caso tendríamos la siguiente capacidad de proceso:

4 INT cores a 4.6 GHz en carga de enteros (compresión de datos por ejemplo).
2 FPUs AVX de 256 bit en cargas de coma flotante AVX a 4.6 GHz.
2 FPUs dobles de 128 bit en cargas de coma flotante SSE o AVX de 128 bit a 4.6 GHz.

Más información en breve.

Actualización 07 Septiembre 2011:

En primer lugar: Frecuencia máxima en modo Turbo Core: el modelo tope de gama FX-8150 (se enpecual con un FX-8170 para Q1 2012) será de 4.2 GHz con carga parcial de cores, probablemente con un máximo de 4 cores al 100%. Lo que no está nada mal manteniendo un TDP de 125W.

En segundo lugar: Nuevo evento de AMD en San Francisco para el día 13 de Septiembre:

Hanging out in San Francisco the week of September 12th? Not finding anything interesting?
AMD to the rescue. We'll be making an historic announcement, and want you to be a part of it.

AMD invites you to join us for an entertaining evening on the beautiful Yerba Buena Terrace at the St. Regis San Francisco. Spend the evening exploring the latest AMD technology, mingling with AMD executives and technology partners, all while enjoying cocktails and hors d'oeuvres. Be sure to arrive before 7:00pm to hear our big news first hand.

	When:	Tuesday, September 13, 2011
	Where:	St. Regis Hotel, Yerba Buena Terrace, San Francisco
	Time:	6pm - 9 pm PDT
	RVSP:	by September 9, 2011 at fusionzone.eventbrite.com (password: AMD)

Contact Information:
Heather J Lennon
Sr. Manager Public Relations, AMD
Heather.Lennon@amd.com

13 de Septiembre ¿Será el día de lanzamiento de Bulldozer?

Por último: Hoy AMD ha confirmado el comienzo de la venta de CPUs Interlagos de 16 cores para servidores a los integradores de sistemas. El primer chip con micro arquitectura Bulldozer.

"This is a monumental moment for the industry as this first 'Bulldozer' core represents the beginning of unprecedented performance scaling for x86 CPUs," said Rick Bergman, senior vice president and general manager, AMD Products Group. "The flexible new 'Bulldozer' architecture will give Web and datacenter customers the scalability they need to handle emerging cloud and virtualization workloads."

Para más información acerca de Bulldozer:

En múltiples artículos he analizado en detalle el diseño interno de BD 32 nm. Cito los más destacables:

AMD Bulldozer- HotChips23 – LowLevelHardware

AMD Bulldozer. Perspectivas – LowLevelHardware

La L3 cache multibanco en AMD Bulldozer. Actualizado – LowLevelHardware
AMD AGLUs, Bulldozer INT cores. Actualizado – LowLevelHardware

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware
AMD Bulldozer – ProfessionalSAT
La micro arquitectura de AMD Bulldozer. Actualizado – LowLevelHardware
Novedades y expectativas 2010. Actualizado – LowLevelHardware
AMD Bulldozer. Prestaciones estimadas – LowLevelHardware
Micro arquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware
Previo AMD Bulldozer. Actualizado – LowLevelHardware

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

AMD Bulldozer: HotChips23 – LowLevelHardware

2017-02-02T16:12:00.000+01:00

Estos días se está celebrando el HotChips 23, una de las convenciones anuales donde se discuten los nuevos diseños de procesadores de sobremesa, servidores, memorias, procesadores de bajo consumo para dispositivos móviles… todo lo relacionado con el mundo del silicio en 2011.

Y claro está, también ha habido alguna nueva información sobre Bulldozer y mucha viejas ideas “refritas” sobre este nuevo core. Lamentablemente, ninguna estimación prestacional, puro silicon para entendidos en la materia.

AMD ha entrado en detalle en algunos aspectos del diseño del chip Zambezi (4 módulos y 8 INT cores) fabricado por Global Foundries en 32 nm SOI HKMG.

Nuevas fotografías del die de Bulldozer

En este slide de la presentación en HotChips vemos una nueva toma del die de Bulldozer.

Aparece con mayor altura que en anteriores vistas, si comparáis con anteriores artículos míos veréis claramente la diferencia. No hay modo de saber cual es la correcta, si esta o las antiguas (más alargadas), hasta que haya samples comerciales.

Ampliación del die:

Lo que me llama poderosamente la atención es la grandísima cantidad de espacio desaprovechado: No utilizado ni por cores (lógica) ni cachés ni por las controladoras de memoria y buses Hyper Transport 3.

En varios de mis numerosos artículos sobre Intel Sandy Bridge, mencioné el enrutado de todo el cableado del Ring Bus bajo la caché L3. Todo este esfuerzo de ingeniería se realizó para ahorrar espacio de die y reducir el tamaño de Sandy Bridge. Cito textualmente (Extraído de Microarquitectura Intel Sandy Bridge. Parte 1. Actualizado – LowLevelHardware. Martes 14 de septiembre de 2010):

“ Lo más llamativo del bus en anillo de Sandy Bridge (y Nehalem EX) es su implementación respetuosa con el consumo y el área de die, me explico:
Todos recordamos el famoso procesador Radeon HD 2900 de ATI con un ring bus de 512 bits, que debido a su desmesurada disipación térmica y consumo no pudo competir con sus análogos de nVidia hasta que ATI lo eliminó sustituyéndolo por una arquitectura convencional en su serie Radeon HD 3800.
En Sandy Bridge Intel ha utilizado power gating y clock gating extensivamente, además de aplicar un voltaje bajísimo al ring bus para conseguir una disipación térmica muy baja.
Por otro lado, es un dato muy importante, según los ingenieros de Intel, no ha representado un incremento de área ya que la infinidad de conductores necesarios para el Ring Bus se enrutan por otras capas del diseño bajo la caché L3. “

AMD simplemente no dispone de los extensos recursos económicos y humanos de Intel y no puede permitirse el lujo de este tipo de optimizaciones, bastante tiene con llevar a cabo el diseño de un semiconductor de tal complejidad como Bulldozer.

El espacio “muerto” lo he coloreado en GRIS, son muchos, muchos mm2:

Superficie del die de AMD Bulldozer

Por fin conocemos el verdadero tamaño de Bulldozer y debo decir que estoy algo decepcionado: nada menos que 315 mm2… muy caro de producir.

Estoy convencido de que AMD sin duda optimizará este diseño en sucesivas iteraciones (con el paso a 22 nm en un par de años) e incluso antes con el lanzamiento de la versión de 5 módulos y 20 cores producida también en 32 nm.

Infraestructura de AMD Zambezi. AM3+

Como vemos la versión de sobremesa de Bulldozer solo activa uno de los 4 enlaces HT3 para comunicación con el chipset (los demás permanecen deshabilitados, en su versión Opteron se utilizan como conexión directa con hasta tres chips más).

La latencia L3 se me antoja como he comentado en numerosas ocasiones muy alta, creo firmemente que rondará los 50+ ciclos.

Ni rastro de las extrañas AGLU, ahora las llaman AGen, es decir una normal y corriente AGU. Además solamente hay dos pipes de enteros (INT pipes) una con circuitería MUL y la otra según AMD con un divisor por hardware (DIV). Viendo las latencias de división entera de Bulldozer me da la impresión de que tal divisor no existe y la división se ejecuta por micro código o tiene un diseño extremadamente simplificado y poco efectivo.

AMD Turbo Core en Bulldozer

En Bulldozer, AMD presenta un Turbo Core de dos niveles.

All Core Boost: Todos los módulos (conjuntos de dos cores con su SIMD FPU Unit y los 2 MB de L2) aumentan su frecuencia por encima de la nominal si el TDP y la temperatura lo permite.

Se da en cargas de trabajo que implique a TODOS los cores, sea con carga parcial elevada o máxima 100%.

Max Turbo Boost: Si dos de los módulos (cuatro INT cores, dos SIMD FPUs y dos L2 de 2 MB) se hallan en estado Sleep C6 (power gated) el resto (los otros dos módulos) pueden incrementar su frecuencia hasta en 1 GHz sobre la nominal.

Esto conlleva algunas consideraciones prestacionales extrañas y fastidiosas que detallaré cuando tenga hardware funcional comercial en las manos. A ver si en un mes y algo…

En múltiples artículos he analizado en detalle el diseño interno de BD 32 nm. Cito los más destacables:

AMD Bulldozer. Perspectivas – LowLevelHardware

La L3 cache multibanco en AMD Bulldozer. Actualizado – LowLevelHardware
AMD AGLUs, Bulldozer INT cores. Actualizado – LowLevelHardware

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware
AMD Bulldozer – ProfessionalSAT
La micro arquitectura de AMD Bulldozer. Actualizado – LowLevelHardware
Novedades y expectativas 2010. Actualizado – LowLevelHardware
AMD Bulldozer. Prestaciones estimadas – LowLevelHardware
Micro arquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware
Previo AMD Bulldozer. Actualizado – LowLevelHardware

Conclusiones

Poco se puede concluir hasta que no haya datos objetivos de steppings finales. Los actuales samples de Bulldozer son realmente lentos debido a numerosos bugs en los primeros steppings A y B1 que han hecho necesario deshabilitar características clave de las controladoras de memoria, cachés, TLBs, etc.

Queda ver como será Bulldozer con todos sus subsistemas a punto y cuales son las frecuencias finales comerciales. Sin duda estas no serán indicativas del verdadero potencial final en frecuencia de Bulldozer en 32 nm; AMD mejora sus procesos paso a paso a lo largo del tiempo en que este está en el mercado.

La historia fue realmente brillante en 90 nm cuando culminó en unos excelentes 3.2 GHz con el Athlon 64 X2 6400+ partiendo de los iniciales 1.8 GHz.

En el proceso de 65 nm SOI la historia fue diferente y empezó realmente mal. Los primeros Athlon 64 X2 eran claramente más lentos por ciclo (IPC) que los anteriores de 90 nm y les era imposible llegar a los 3 GHz. Con el tiempo llegaron a 3.1 GHz, un mal resultado e inferior al anterior de 90 nm SOI.

En aquel tiempo AMD lanzó Barcelona (Phenom) quad core también en 65 nm con unas frecuencias decepcionantes de 2.3 GHz en pico y una ridículamente pequeña caché L3 de 2 MB y elevada latencia. Con los meses llegó a 2.6 GHz y por fin llegaron los 45 nm.

Los 45 nm para AMD han sido un éxito rotundo, los Phenom II Shanghai subieron rápidamente de frecuencia y el incremento a 6M de la caché L3 le permitió ganar prestaciones por ciclo (IPC) respecto a Barcelona. A esto se añadió la excelente versión de 6 cores con Turbo Core, el Phenom II X6, también con 6 MB de L3.

Gracias al exitoso proceso de 45 nm AMD ha podido sobrevivir con un anticuado diseño de CPU que data de 2003, (remozado en 2007 con Barcelona, aunque igual en la parte de enteros) y esto lo escribo en Agosto de 2011…

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

AMD Bulldozer. Perspectivas – LowLevelHardware

2017-02-02T16:11:00.002+01:00

Mucho se está hablando en los círculos informáticos acerca de la nueva micro arquitectura Bulldozer de AMD. Un diseño pensado para cargas de trabajo multithread y con pipelines de ejecución con mayor número de etapas para un alto potencial en frecuencia.

AMD Orochi 32 nm 8 MB L2 y 8 MB L3.

En este artículo expondré algunas de mis opiniones sobre la micro arquitectura que va a marcar el futuro inmediato AMD de aquí a 2014.

AMD Bulldozer y el proceso de 32 nm HKMG SOI

En múltiples artículos he analizado en detalle el diseño interno de BD 32 nm. Cito los más destacables:

La L3 cache multibanco en AMD Bulldozer. Actualizado – LowLevelHardware

AMD AGLUs, Bulldozer INT cores. Actualizado – LowLevelHardware

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware

AMD Bulldozer – ProfessionalSAT

La micro arquitectura de AMD Bulldozer. Actualizado – LowLevelHardware

Novedades y expectativas 2010. Actualizado – LowLevelHardware

AMD Bulldozer. Prestaciones estimadas – LowLevelHardware

Micro arquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware

Previo AMD Bulldozer. Actualizado – LowLevelHardware

Bulldozer está fabricado por Global Foundries en el nodo de proceso de 32 nm HKMG (High K Metal Gate) SOI (Silicon On Insulator) lo que le dará unas buenas perspectivas de mejora de frecuencia y reducción de consumo con el paso del tiempo.

AMD a lo largo de su historia se ha caracterizado por ofrecer una continua mejora de su proceso de fabricación de semiconductores a los largo de la vida de cada nodo (para AMD unos 2 o 3 años).

Podemos decir que AMD saca al mercado los primeros chips en un nodo concreto (45 nm, 32 nm,…) cuando tiene unos yields (rendimientos de fabricación) mínimos (debido a la brutal presión competitiva de Intel) pero suficientes aún a costa de unas frecuencias de funcionamiento iniciales reducidas.

Con el paso de los meses AMD va mejorando paso a paso el proceso y se va reduciendo la disipación térmica, el voltaje y aumenta la frecuencia máxima de sus diseños.

No es descabellado pensar en un 50% de mejora vs 45 nm para los 32 nm en AMD.

AMD Orochi Bulldozer. 4 módulos, 8 INT cores, 4 dual 128 FMACs y 2 MB L2

AMD Orochi va a rondar los casi 300 mm2 y está constituido por:

4 módulos completos.

4 bancos L3 de 2 MB y 16 vías (para un total de 8 MB L3 con 64 vías)

4 buses HT 3.0

2 controladoras DDR3 1866 MHz.

Un North Bridge.

El módulo en AMD Bulldozer

Un módulo está integrado por:

2 INT cores con 2 ALUs y 2 AGUs, cada uno con su L1d de 16KB y 4 vías.

El Instruction Fetching desde la L1i compartida de 64KB y 2 vías.

La lógica de decoding de 4 vías con la Microcode ROM.

El circuitería de Branch Prediction.

La FPU doble de 128 bit FMAC (Fused Multiply Accumulate).

La unidad de control de caché que comprende las dos WCC (Write Combining Caches de 4 KB, una por INT core) que da acceso a la masiva cache L2 de 2 MB y 16 vías.

¿Qué podemos esperar de AMD Bulldozer?

Bulldozer al igual que Llano (la APU de 32 nm) se fabrican en el nuevo proceso y por ello sufrirán inicialmente de unas frecuencia máximas no muy elevadas.

Llano se ha estrenado a frecuencias máximas de 2.9 GHz, ahora está previsto que llegue al mercado una versión desbloqueada a 3.1 GHz con overclocks “sencillos” a 3.6 GHz.

Los cores de un Phenom II (al menos en los últimos steppings de 45 nm) llegan con relativa facilidad a los 4 GHz. A Llano esta frecuencia le queda lejos y eso que está fabricado en el siguiente nodo que debería proporcionar una mejora teórica de un 20% en frecuencia.

Disipación térmica: AMD 45 nm vs 32 nm.

Recordemos que cuando AMD empezó a fabricar CPUs de 65 nm también padeció problemas claros de escalado de frecuencia, en concreto los primeros AMD K8 Brisbane funcionaban a 2.6 GHz cuando los “antiguos” K8 90 nm funcionaban sin problema a 3 GHz.

O pensemos en AMD Phenom Barcelona, fabricado en 65 nm en 2007 y que salió al mercado a unos meros 2.3 GHz cuando los K8 de la época (todavía de 90 nm) funcionaban a 3.2 GHz (Athlon 64 X2 6400+).

Conclusiones

Con esta coyuntura en mente podemos pensar lo siguiente según los diversos rumores y leaks que circulan:

Bulldozer, inicialmente en su configuración completa (Orochi) para socket AM3+ es deseable que ronde los 3.5 GHz nominales con carga 100% en los 8 cores y que gracias al Turbo logre frecuencias con carga de cores parcial (mitad de cores al 100%) rondando los 4 GHz.

AMD postula precios de unos 300 dólares para el top bin de Orochi, eso le sitúa en la banda de precios del Intel Core i7 2600K Sandy bridge: En mi opinión sería un éxito rotundo de AMD el posicionarse competitivamente en este nivel de precios.

A mí personalmente me cuesta creerlo pero sería una excelente noticia para la sana competencia en el sector.

En cualquier caso estamos a la vuelta de la esquina del lanzamiento previsto para Bulldozer, será en Septiembre si no hay cambio de planes. Para AMD sería una excelente noticia, y de paso dispararía su cotización bursátil, bastante deprimida tras los momentos gloriosos de los K7 y K8.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

La L3 cache multibanco en AMD Bulldozer. Actualizado – LowLevelHardware

2017-02-02T16:11:00.001+01:00

Poco a poco se acerca la comercialización de los procesadores basados en la nueva micro arquitectura de AMD prevista para el 7 de junio. Actualización: finalmente llegará al mercado en Septiembre según los últimos roadmaps.

Conforme pasan los días se va filtrando nueva información sobre su estructura interna y también algunos datos acerca de su rendimiento, o por lo menos del rendimiento de algunos Engineering Samples.

Bajo el módulo con su L2 de 2 MB se observa el banco de L3 de 2 MB y 16 vías.

En este artículo hablaré sobre la estructura de la caché L3 en Bulldozer y sobre su funcionamiento.

La caché L3 multibanco: 4 x 2 MB

AMD ha diseñado una caché L3 particionada en 4 sub arrays de 2 MB y 16 vías cada uno. la capacidad total en el chip de 4 módulos y 8 INT cores es de 8 MB y 64 vías de asociatividad.

El diseño es exclusivo, la L3 no incluye los datos presentes en la L2 de 2 MB de cada módulo y en cambio es una Victim Cache, donde se alojan las páginas desalojadas desde L2.

La frecuencia estimada para la L3 es de 2.4 GHz.

Con una frecuencia estimada en 2.4 GHz los anchos de banda son los siguientes:

307.2 GB/s en lectura gracias a sus dos accesos por ciclo de 128 bit y por módulo.
2 400 000 ciclos/s x 4 módulos x (2 accesos/ciclo x 128 bit) = 2 457 600 000 bit / 8bits/1 byte = 307 200 000 bytes/s = 307.2 GB/s
153.6 GB/s en escritura gracias al acceso de 128 bit por ciclo.
2 400 000 ciclos/s x 4 módulos x 128 bit = 1 228 800 000 bit / 8bits/1 byte =152 600 000 bytes/s = 153.6 GB/s

Por lo que se desprende de este documento, la caché L3 está conectada con cada módulo Bulldozer mediante dos buses de lectura de 128 bit y un bus de escritura de 128 bit. Se me antoja una mejora absolutamente espectacular respecto a anteriores diseños de AMD (un Phenom II X6, por ejemplo, solamente cuenta con un bus de 64 bit por core hacia y desde la L3 de 6 MB y 24 vías). De ahí sus mediocres resultados en este apartado.

Especulación 1. Espero latencias L3 elevadas en Bulldozer.

Teniendo en cuanta que la latencia efectiva L3 (load to use) es aditiva con la de los demás niveles y que la latencia L2 ya es conocida y va de los 18 a los 20 ciclos no será nada extraño que la latencia L3 efectiva en Bulldozer ronde los 50 ciclos.

Otro dato que apunta en la misma dirección es que se mantiene el diseño asíncrono con buffers de sincronización de Shanghai (Phenom II 45 nm), con una frecuencia de cores variable por los modos Turbo desde los 2.8 hasta los 3.5 GHz, será difícil conseguir bajas latencias L3.

Por último, una asociatividad tan elevada, 64 vías, aunque aumenta la tasa de aciertos L3, tampoco ayuda en cuanto a la latencia ya que hay que examinar 64 localizaciones cada vez en busca del dato o instrucción.

8 MB = 4 bancos de 2 MB y 16 vías

Una solución elegante que podría haber adoptado AMD consiste en que cada core tenga una latencia reducida de acceso hacia su banco local L3, es decir, que tenga “privilegio” de acceso a este banco y por ello mayor ancho de banda en GB/s y menor latencia en ciclos.

Esto sólo lo descubriremos en la práctica en cuanto le “echemos el guante” a un stepping final (comercial) de Bulldozer, lo tendremos el día 7 de Junio. Actualización: Bulldozer estará finalmente disponible en Septiembre si se cumplen las previsiones.

Conclusiones

AMD ha diseñado una caché L3 que marca un punto de partida desde sus actuales diseños de 45 nm y 6MB con 24 vías (Shanghai o Istambul). En Bulldozer son 4 bancos de 2 MB y 16 vías para un total de 64 vías.

Tengo ganas de probar un stepping final para ver si la latencia a cada uno de los bancos es diferente o por el contrario idéntica. Si existe una controladora de L3 para los 4 bancos será una latencia constante y elevada… en cambio, si cuenta (como Sandy Bridge) con una controladora L3 por cada banco de 2 MB pueden haber sorpresas.

En todo caso y con una L2 con 18 – 20 ciclos es difícil lograr latencias l3 muy recortadas. E s lógico esperar 10 ciclos más de latencia que en Sandy Bridge como mínimo (la L2 de SB tiene pipelines de 10 etapas Load to Use).

Destaca su optimización pensando en una baja disipación térmica y sobretodo en un consumo reducido, por ello su frecuencia rondará los 2.4 GHz y su voltaje estará sobre los 1.15 a 1.20 V efectivos. Es un diseño convencional, de bus con conectividad total entre todos los agentes, cada módulo Bulldozer y cada slice L3.

Hay que ser consciente del camino absolutamente divergente que ha adoptado Intel con Sandy Bridge 32 nm. La L3 es síncrona a los cores y funciona a la misma frecuencia que estos. Con ello consigue una bajísima latencia y un ancho de banda astronómico. Los diferentes bancos L3 se comunican entre sí mediante un ring bus bidireccional que aporta un gran ancho de banda y un funcionamiento “sencillo” a estos niveles.

Echad un vistazo a la web de mi nueva empresa, un proyecto de gran envergadura que llevo preparando hace más de un año.

Os lo recomiendo para diseño de sistemas de altas prestaciones optimizados al límite:

Allí tenéis a vuestra disposición el formulario de contacto, para consultas sobre este artículo hacedlo más abajo en la sección de comentarios.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

AMD AGLUs, Bulldozer INT cores. Actualizado – LowLevelHardware

2017-02-02T16:11:00.000+01:00

En este técnico artículo voy a detallar la estructura de los pipelines de ejecución de los INT cores duales de un módulo del nuevo procesador AMD Bulldozer.

Uno de los núcleos de enteros de Bulldozer.

AMD Bulldozer. Filosofía de diseño.

Con Bulldozer AMD ha roto con el diseño “convencional” para el núcleo de procesamiento. Hasta ahora, un procesador era un bloque que trabajaba conjunta y síncronamente compuesto de varias subunidades.

AMD Bulldozer: Cada INT core y la unidad SIMD son funcionalmente independientes.

En cambio en Bulldozer, AMD ha seguido un diseño CMT (Cluster Multi Processing) de coprocesamiento con subunidades independientes y con pipelines desacoplados mediante buffers y queues.

Las ventaja principal de esta disposición reside en la compartición de algunas estructuras entre los dos cores de enteros. Cada core ejecuta un thread, cada thread debería afinitizarse a un core para dar un óptimo rendimiento.

Aunque alguna de las unidades esté bloqueada procesando datos el Front End sigue ejecutando Fetching y computando los Branches llenando sus queues (colas) y buffers con resultados.

Die de Bulldozer con 4 módulos y 8 INT cores.

Resumiendo, con Bulldozer AMD construye un procesador multicore de 8 núcleos partiendo de una unidad que llaman el módulo que incluye 2 INT cores, la unidad SIMD y la L2 de 2 MB y 16 vías.

A lo largo de los dos últimos años he escrito varios artículos sobre AMD Bulldozer:

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware

AMD Bulldozer – ProfessionalSAT

La micro arquitectura de AMD Bulldozer. Actualizado – LowLevelHardware

Novedades y expectativas 2010. Actualizado – LowLevelHardware

AMD Bulldozer. Prestaciones estimadas – LowLevelHardware

Micro arquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware

Previo AMD Bulldozer. Actualizado – LowLevelHardware

AMD Bulldozer Front End.

El frontend de Bulldozer es compartido por todas las subunidades y está dimensionado y lógicamente desacoplado de las unidades de ejecución.

Cada módulo contiene un sólo Front End que da servicio a tres unidades de ejecución:

Los dos INT cores con 4 pipelines de ejecución cada uno y con su Scheduler y Register File privados.
La unidad SIMD compartida (llamada desacertadamente por AMD y la prensa especializada FPU compartida) con su Schedule y Register File.

Yo la llamo unidad SIMD porque no sólo incluye (como detallaré en otro artículo) dos pipelines SIMD SSE, AVX y X87 sino también 2 unidades de 128 bit SIMD de enteros SSE y MMX (INT SIMD SSE y MMX).

En rojo resaltado el Front End de AMD Bulldozer.

El Front End contiene entre otros:

La lógica de Branch Prediction que ha sido considerablemente rediseñada y ampliada de cara a aumentar su tasa de aciertos. Cuenta con un BTB de 2 niveles con miss penalties (penalización de fallo) de 15 a 20 ciclos en función del tipo de Branch.
Las etapas de fetching y decoding cargan datos (32 bytes/ciclo) desde las cachés L1i (64 KB, 2 vías) y alimentan dos ventanas de 16 bytes (una por thread). Hay un IBB (Instruction Byte Buffers) de 16 niveles en la cola de fetching por thread (2 IBBs, con cada 16 bytes por nivel).

Los Decoders pueden decodificar hasta 4 instrucciones / ciclo desde los IBB, cada ciclo se escanean dos de las ventanas de 16 bytes en busca de hasta cuatro instrucciones. En caso de instrucciones X86 complejas que hagan recurrir al Microcode Engine solamente se decodifica una instrucción por ciclo.

Bulldozer INT cores. Unidades de enteros.

Cada unidad de enteros es como un pequeño core de ejecución de 64 bit con 4 pipelines discretos alimentados por un Scheduler independiente.

En verde y azul los dos INT cores de un módulo Bulldozer.

El núcleo de ejecución consta de 4 pipelines de 64 bit con un diseño peculiar y novedoso que incluye las unidades combinadas AGLU:

Cuatro unidades de ejecución de enteros con Scheduler común.

La longitud de los pipelines de enteros ha crecido en Bulldozer de un modo espectacular hasta las 18 o 20 etapas. Comparado con las 12 etapas de AMD Phenom destaca como un diseño claramente dirigido a altas frecuencias que en mi modesta opinión sólo tiene sentido si supera con claridad los 4 GHz en modos Turbo para compensar su gran penalización en caso de fallo de predicción Branch.

Los dos INT cores que forman parte de un módulo en AMD Bulldozer.

Lo novedoso de los INT cores son sus unidades híbridas AGLU:

Son unidades AGU (de generación de direcciones de memoria, address generators) pero con funciones básicas ALU, es decir, pueden procesar instrucciones simples ALU (LEA 64, INC) echando una mano para compensar el escaso ancho de proceso del core.

Resaltadas las dos AGLUs pertenecientes a uno de los INT cores.

Las unidades de ejecución completas (Full ALU) EX0 y EX1 incluyen hardware específico para IMUL e IDIV:

EX0 contiene una unidad de división de enteros parcialmente pipelinizada y con latencia y capacidad de proceso variable en función de la precisión. Aunque examinando detenidamente la documentación parece que más bien se trata de una unidad “virtual” ya que la instrucción IDIV se decodifica en el Microcode Engine y se secuencia en instrucciones sencillas ALU que se ejecutan en EX0. Además incluye una unidad para LZCNT y POPCNT.
EX1 por su parte contiene un rapidísimo multiplicador de enteros pipelinizado y de bajísima latencia.
Ambas unidades procesan Branches e instrucciones de enteros complejas.

Cada INT core cuenta con su Scheduler discreto e independiente y ejecuta un thread, además supervisa el procesamiento en las unidad SIMD compartida de las instrucciones FPU X87, FPU SIMD SSE / AVX o INT SIMD MMX / SSE.

Conclusiones

El diseño de Bulldozer me deja un sabor agridulce, AMD sin duda ha dado un paso adelante y si consigue ponerlo en el mercado a frecuencias adecuadas (4 GHz o más en Turbo Mode) tendrá un procesador globalmente competitivo con Sandy Bridge.

Hay detalles que sinceramente no me acaban de convencer como algunas latencias muy elevadas en algunas instrucciones y sin duda será inferior a Sandy Bridge en proceso FPU AVX 256 bit.

Bulldozer puede ser un excelente procesador en cargas de enteros de 8 threads, queda la incógnita acerca del rendimiento de su caché L3 y el subsistema de memoria.

Las latencias L3 serán altas, creo que superiores a los 50 ciclos load to use, razonable me parecen 60 incluso. Hay que ver como compensa efectivamente el Hardware Prefetch este hecho. La elevada latencia L2 (de 18 a 20 ciclos) la compensa parcialmente su gran tamaño (Sandy Bridge se conforma con 256 KB, 8 veces menos, pero con latencias de 9-10 ciclos).

Tengamos en cuenta que la frecuencia del Uncore que incluye la caché L3 multibanco (4 bancos de 2 MB) de 8 MB será muy inferior a la de los cores, probablemente se mueva sobre los 2.4 – 2.66 GHz lo que afectará a la latencia L3 y de memoria.

El panorama en 2011 será divertido… nos vemos en la próxima entrega con un análisis de la unidad SIMD de 4 vías compartida de proceso FPU SSE / AVX / X87 y INT SIMD SSE / MMX.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware

2017-02-02T16:10:00.002+01:00

Mucho se ha hablado en los últimos días de los resultados prestacionales aparecidos en internet de dos Engineering Samples del nuevo procesador AMD Bulldozer.

Die de Bulldozer con 4 módulos y 8 INT cores.

Los resultados han aparecido en OpenBenchmarking.org. Se trata de la versión para servidores (Opteron) de Bulldozer, en unas máquinas configuradas con 2 chips Magny Cours (MCM de dos dies de 8 INT cores cada una, total por chip: 16 INT cores) para un total de 32 INT cores:

http://openbenchmarking.org/s/AMD%20Eng%20Sample%20ZS182045TGG43_2

http://openbenchmarking.org/s/AMD%20Eng%20Sample%20ZS182045TGG43_28

Debo expresar mis reservas sobre, no tanto la veracidad de los resultados, si no sobre la representatividad de estos datos. Por lo que se deriva del análisis de las puntuaciones en estos benchmarks, está claro que es un stepping muy temprano de Bulldozer, funcionando sobre placas base pre-release y con BIOS sin optimización alguna.

Los hechos que apuntan a estas conclusiones son,principalmente, el ínfimo rendimiento en algunos de los tests que afectan al subsistema de memoria.

Es muy posible que en estos procesadores haya algunas características clave desactivadas o deshabilitadas que degradan terriblemente el rendimiento. Algunos de las unidades previsiblemente desactivadas son los siguientes:

El Probe Filter, encargado de reducir el tráfico de coherencia entre las cachés de cada die. Recordemos que en los sistemas de pruebas hay dos CPUs MCM (Multi Chip Module) para 4 dies en total (32 INT cores y 16 nódulos).
El último nivel de los TLB.

Los resultados de Stream son tan bajos que claramente apuntan en esta dirección: unos meros 6 GB/s.

Un sistema equivalente actual de AMD con dos chips Magny Cours (MCM de dos dies de 6 cores. 12 cores en total por chip. 24 cores por sistema) supera los 27 GB/s en el mismo test.

Uno de los módulos de Bulldozer con 2 INT cores y sus cachés L2 2 MB y L3 2 MB.

Otras dudas que me asaltan sobre estos chips ES son las siguientes:

¿Estará activado o no el Turbo Mode? Yo personalmente abogo por que no. El variar la frecuencia de una CPU en funcionamiento no es precisamente un proceso sencillo. Exige mucha validación y tunning de BIOS así como de la parte eléctrica de la placa base y no suele estar disponible hasta los steppings finales.
La frecuencia del uncore o North Bridge que comprende los cuatro bancos de 2 MB de caché L3 es desconocida y con seguridad muy inferior a la final.
¿Se hace uso de AVX en el código del conjunto de pruebas? Y si es es así, en qué modo.

Seguramente la frecuencia de 1.8 / 1.9 GHz apuntada en los resultados sea fija y no aumente los 500 MHz que AMD ha estipulado para el Turbo Mode en Bulldozer con carga full threaded.

Distribución de unidades en un módulo de Bulldozer.

Frecuencias probables de las versiones comerciales

Las frecuencias finales de los Opteron Interlagos (MCM de 2 dies de 8 INT cores en un chip) de 16 INT cores (8 nódulos) probablemente rondarán inicialmente los 2.4 – 2.8 GHz más los 500 MHz en carga gracias al Turbo.

En los diseños de sobremesa, el octal core (8 INT cores, 4 módulos) es razonable y deseable que al menos esté sobre los 3.0 – 3.4 GHz inicialmente. Me queda la duda sobre la frecuencia del North Bridge y los 4 bancos de L3 de 2 MB, lo lógico sería que no bajase de los 2.4 GHz.

Pequeño apunte, prestaciones

En proceso de enteros, Bulldozer parece ser un buen diseño multithread pero con graves limitaciones en código single threaded comparado con Sandy Bridge.

En coma flotante X87 o SSE no romperá records de velocidad en cálculo paralelo, aunque tendrá un excelente rendimiento single threaded.

La posición de Bulldozer en el mercado de CPUs dependerá principalmente de la frecuencia final del diseño. Si el octal core de sobremesa se queda en los 3.2 GHz (más los 500 MHz del Turbo) pasará serias dificultades frente a Sandy Bridge E (la versión para expertos de SB, prevista para Q4 de 2011).

Si se acerca a los 4 GHz podrá plantarle cara en igualdad de condiciones.

Conclusiones

Poco puedo sacar en claro de estos escasos datos inconexos y con un extrema falta de contexto. Es prácticamente desconocida la información sobre la configuración hardware y software y sobre las condiciones de las pruebas.

En mi opinión estos primeros resultados constituyen una guía y más bien un umbral mínimo en las prestaciones de los steppings comerciales de Bulldozer.

Una observación que me impresiona y sorprende al analizar los datos es que en algunos tests Interlagos mejora los resultados de Magny Cours hasta en un 28 % pero en otros obtiene una velocidad de solamente un 60% (normalizando Magny Cours al 100%).

Me recuerda a los benchmarks de los sistemas Pentium 4 comparados con los AMD Athlon o Pentium III… Esperemos que solo sea una desafortunada primera impresión… Aunque mis análisis micro arquitecturales de Bulldozer hasta la fecha apuntan en esta dirección.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Intel Core i7 2600 K. Análisis cachés L0i 6 KB y L3 unificada 8 MB – LowLevelHardware

2017-02-02T16:10:00.001+01:00

Con Sandy Bridge, Intel ha innovado en el diseño de cachés y como primicia nos ofrece una caché L0i (caché de instrucciones) que contiene instrucciones ya decodificadas procedentes de la caché L1 de 32 KB y 8 vías a través de los decoders x86.

La micro op cache o L0i de 1500 micro ops

Data caches: observamos las cuatro zonas de caché y la RAM.

La caché de instrucciones de nivel 0 (L0i) de los procesadores Sandy Bridge es una caché de micro operaciones, es decir, de instrucciones ya descodificadas en un formato interno, propietario del procesador.

Para un análisis a fondo de la micro op cache os recomiendo el siguiente enlace:

Intel Sandy Bridge Core i7 2600 K. Análisis X86 decoders y L0i micro op cache – ProfessionalSAT

La caché L1i e igualmente los niveles superiores contienen las complicadas instrucciones X86 sin descodificar. Intel, que en su día diseño la ISA X86, sabe que es compleja y a veces absurda en su arquitectura y por ello ha tomado esta medida novedosa, la inclusión de un nuevo nivel de caché L0.

L0i en Sandy Bridge.

La tasa de aciertos se cifra en torno al 80% para un tamaño sobre los 6 KB y una transferencia pico de 32 bytes / ciclo.

En las prueba de bajo nivel que he realizado su tamaño efectivo ronda los 2 a 4 KB, con unas latencias prácticamente ridículas de 2 ciclos load to use en lectura secuencial o en acceso pseudo aleatorio.

Instruction cache: la L0i obtiene una increíble latencia de 2 ciclos.

En acceso aleatorio puro (random access) su tasa de aciertos es cero (lógicamente las instrucciones no pueden estar decodificadas y cacheadas previamente a su petición ya que se trata de un patrón aleatorio) y se dan en su caso aciertos de L1i (L1i hits) con los habituales 4 ciclos de latencia.

Caché L3 unificada y multibanco de 8 MB y 16 vías

Sandy Bridge cuenta con una L3 con cuatro bancos de 2 MB y 16 vías. El acceso al banco local de cada core se hace directamente y con baja latencia. A los otros tres bancos se llega a través del Ring Bus.

Sandy Bridge 32 nm. Bajo cada core está su banco local L3 de 2 MB.

Acceso L3 con bloque de 2048 KB.

La latencia efectiva se sitúa en los 34 ciclos en acceso pseudo aleatorio y en 40 ciclos en modo random (aleatorio). Son resultados muy brillantes.

El core de Sandy Bridge junto con su banco local L3 de 2 MB.

Para tamaños de acceso mayores de 2 MB, el núcleo de ejecución se ve obligado a acceder a bancos de L2 de 2 MB no locales a través del Ring Bus. Por ello, lógicamente la latencia se incrementa.

Acceso L3 con bloque de 6 MB (6144 KB).

En los Core i7 2600K contamos con la implementación completa de cuatro bancos L3 para un total de 8 MB, en otras versiones inferiores Intel deshabilita uno de los bancos quedando en 6 MB L3.

Conclusiones

Esperad en breve una ampliación de este artículo, tengo bastantes datos técnicos y microarquitecturales que agregar pero voy realmente mal de tiempo… En concreto estoy preparando un análisis más exhaustivo de la L0i o micro op cache incluyendo una investigación del ancho de banda de descodificación con distintos tipos de instrucciones.

Espero que con esta pequeña introducción tengáis material suficiente para pensar como se mejora un diseño ya excelente partiendo de un core Nehalem / Westmere.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Intel Series 6 chipsets stepping B3 – LowLevelHardware

2017-02-02T16:10:00.000+01:00

Intel ha anunciado que a partir del 14 de Febrero estarán disponibles los primeros samples del renovado stepping B3 de los chipsets de la serie 6 afectados por el bug en las controladores SATA2.

Intel Product Change Notification 110456 – 00.

Verdaderamente es llamativo como en un periodo de tiempo tan reducido han logrado producir chips funcionales con el error de diseño corregido.

Para un análisis profundo del tema os recomiendo otros de mis artículos:

Intel Sandy Bridge- Análisis de situación – ProfessionalSAT

Cougar Point Intel 6 Series Chipset SATA2 bug. Actualizado – ProfessionalSAT

El nuevo B3 es pin compatible con los anteriores diseños.

En principio los fabricantes de placas base empezarán a recibir los primeros chips el día 14, es decir, mañana mismo. Desde ese momento comenzará la fabricación de las nuevas placas.

Incluso se especula en que en algunos diseños sería posible desoldar el chip B2 defectuoso sustituyéndolo por el nuevo B3 sin cambiar la placa ni otros cambios.

Lista de chipsets afectados.

Conclusiones:

Quizás haya suerte y en breve tengamos placas funcionales y libres de errores para poder montar los primeros sistemas Sandy Bridge de sobremesa con garantías.

En cualquier caso, en mi opinión, Intel debe hacer algo más para recuperar la confianza, en muchos casos perdida y en otros debilitada, del consumidor final. La gente de Intel lo sabe y espero que obren en consecuencia con medidas claras.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Módulos DDR3 de 4 GB. Actualizado – LowLevelHardware

2017-02-02T16:09:00.002+01:00

Estos días estoy realizando algunos experimentos con módulos DDR3 de 4 GB de capacidad en un Core i7 930 a 4.2 GHz (181 MHz X23 Turbo Mode) con un total de 12 GB. En sendos artículos de ProfessionalSAT detallo algunos aspectos de sistemas diseñados con estos componentes:

3 DIMM DDR3 1333 de 4 GB cada uno.

Las primeras conclusiones son las siguientes:

No puedo configurarlos como hago normalmente con sus homólogos de 2 GB a 7-7-7-14 1T en placas base de socket 1366 para Core i7 de la serie 900, en este caso solo he conseguido llegar a 8-8-8-24 2T de manera estable.
También noto una disipación térmica superior dando una temperatura en carga 100% bastante elevada en los chips, siendo recomendable una refrigeración directa.
Su frecuencia máxima con timings nominales 9-9-9-27 2T llega a 1500 MHz a 1.64V.

Los chips son bastante mayores en superficie que sus análogos de 2 GB.

Ésta cantidad de memoria (12 GB) ayuda sobremanera a Windows 7 X64, sobretodo en compresión de grandes volúmenes de datos con 7zip en modo LZMA2 8 threads con grandes tamaños de diccionario. Es una tarea que ejecuto rutinariamente y el tiempo de compresión decrece de modo notable.

Detalle de uno de los chips.

Otra posible utilización de esta cantidad de memoria para un usuario que no la necesite por su mix software es asignar 4 GB para un disco RAM (RAMDisk) quedándonos con 8 GB de memoria para el sistema operativo.

Kingston KVR1333D3N9/4G

Sin duda en poco tiempo veremos nuestros sistemas poblados por módulos de esta capacidad conforme su precio baje en comparación con sus homólogos de 2 GB.

Cuando los fabricantes de memoria pasen al siguiente nodo de fabricación, con la consiguiente reducción de voltaje y superficie del die, estaremos en condiciones de aumentar la frecuencia de módulos de esta capacidad sin problemas.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Microarquitectura en imágenes (I) Execution Trace cache. Actualizado – LowLevelHardware

2017-02-02T16:09:00.001+01:00

La Execution Trace Cache es uno de los signos identificativos de la antigua arquitectura Intel Netburst. Almacena instrucciones ya descodificadas en orden de programa (traces). Su tamaño era de 12k micro ops o unos 21 KB (según Intel).

Efectivamente daba una tasa de aciertos realmente baja cercana a un 80% en código real y en caso de muchos branches llegaba a un solamente 55%, por ello se erigió en un talón de Aquiles de la microarquitectura Netburst.

Trace cache de Willamette 180 nm (L2 256KB).

En sus cuatro encarnaciones (cinco si Tejas hubiese llegado al mercado), la Trace Cache (en adelante TC) de los Intel Pentium 4, mantuvo su organización. En Willamette (arriba, primera generación, 180nm, 256 KB L2) y Northwood (abajo, segunda generación, 130 nm, 512 KB L2) podemos ver que son prácticamente idénticas.

La TC sustituía a la típica cache de instrucciones L1 (L1i) de otros diseños. En lugar de almacenar instrucciones x86, almacena micro-operaciones nativas del core Pentium 4 ya decodificadas. Su tamaño efectivo era de 10k a 18k instrucciones (según su naturaleza) con unas tasas de acierto, según Intel, comparable a una L1i de 8 a 16 KB.

Trace caché de Northwood 130 nm (L2 512KB).

Al almacenar secuencias de micro-operaciones, llamadas traces, libera así de trabajo a los decoders x86 cuando se ejecuta varias veces el mismo código (se encuentra almacenado listo para su uso). Esta estructura era capaz de enviar hasta 3 instrucciones/ciclo hacia el núcleo de ejecución OoO (Out of order).

La mayor limitación era la bajísima velocidad sostenida (througput) de decodificación de instrucciones cuando se daba un trace cache miss o fallo de la TC.

El x86 decoder del Pentium 4 en todas sus versiones sólo era capaz de traducir una instrucción IA32 en microinstrucciones por ciclo (!!).

Este era un grave factor limitante de la arquitectura Netburst. En ciertas condiciones un Pentium 4 se comportaba como un procesador single-issue.

Trace caché de Prescott 90 nm (L2 2048KB).

La TC contiene traces: secuencias de uops (micro operaciones) construidas en orden de programa, estas instrucciones están ordenadas en grupos de 6 por línea de TC. Además, la TC contiene un pequeño predictor de saltos (trace BTB, Branch Target Buffer) solamente para las instrucciones presentes en ella.

Para los tipos de instrucciones IA32 más complejos no se utilizaba el x86 decoder ni la trace cache, sino la Microcode ROM. Una memoria especializada que guarda secuencias de uops de las instrucciones x86 más complejas.

Trace caché en Cedar Mill 65 nm (L2 2048 KB)

En un P4, las instrucciones x86 que acabarán siendo decodificada en más de 4 uops se envían a la Microcode ROM, siendo su proceso de decodificación mucho más lento. Prescott aportaba en este sentido mejoras, ya que eran menos las instrucciones que requerían su paso por la Microcode ROM.

Conclusiones:

La trace cache aporta mejoras pero también trae consigo grandes problemas:

Una mayor complejidad respecto a una L1i convencional.
Su gran (enorme) penalización en latencia en el caso de fallo (trace cache miss).
Su baja tasa de aciertos efectiva, normalmente sobre un 80% y a veces cercana al 55%.
Su limitado tamaño, unas 12k instrucciones, equivalente a unos meros 8 - 16 KB.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Microarquitectura Intel Sandy Bridge. Parte 1. Actualizado - LowLevelHardware

2017-02-02T16:09:00.000+01:00

Estos días Intel está celebrando en San francisco el IDF 2010 (Intel Developer Forum), entre multitud de temas relacionados con el futuro de la industria de semiconductores ha hablado de Sandy Bridge.

Sandy Bridge tiene menor superficie de die que Nehalem pese a contar con una GPU con 12 SPs.

En estos artículos me voy a centrar en los cambios microarquitecturales de Sandy Bridge sobre la anterior generación de cores de Intel, Nehalem 45 nm y Westmere 32 nm.

En esta primera parte abordaré varios aspectos:

Intel Tock 2010. La aplastante cadencia del gigante de los semiconductores.
Sandy Bridge Ring Bus. La nueva organización de la comunicación inter die.
El System Agent de Sandy Bridge. El Uncore o North Bridge.
El Front End de Sandy Bridge. Las primeras etapas del pipeline.
El mecanismo de Branch Prediction, tan críticamente importante en algoritmos de enteros.

Intel Tock 2010

Sandy Bridge es un cambio profundo respecto a la ya excelente y exitosa microarquitectura que Intel puso en juego en 2008 con Nehalem, los cores que mueven los chips Core i7.

Sandy Bridge es el Tock de 32 nm tras Nehalem y Westmere.

Poco había que mejorar en la arquitectura de los cores Nehalem, ya que Intel lidera en prestaciones en todos los campos… pero los grupos de ingeniería en Intel no podían quedarse dormidos en los laureles (como desafortunadamente hizo AMD tras su excelente core K8).

La próxima generación: Intel Sandy Bridge.

Por ello han procedido a un exhaustivo y profundo rediseño:

Desde el Front End, hasta las unidades de ejecución, el Branch Prediction e incluso las unidades Load – Store. También se ha modificado la arquitectura de la cache L3 dividiéndola en bancos de 2 MB por core y la interconexión interna de las diferentes partes del procesador.

Die de Sandy Bridge quad core 32 nm.

El Ring Bus que ahora hace de ruta de comunicación entre todas y cada una de las partes del procesador:

cores
Bancos de L3 de 2 MB
System Agent -Uncore o North Bridge-
GPU integrada
Video decoder – encoder

Es, a mi modo de ver, uno de los cambios más significativos respecto a diseños anteriores (Westmere y Nehalem).

Intel no ha dejado nada al azar con Sandy Bridge.

Sandy Bridge Ring Bus

Intel ha dotado a Sandy Bridge de un novedoso y extremadamente rápido sistema heredado de su hermano mayor Nehalem EX, un anchísimo y eficiente Ring Bus de comunicaciones para coordinar todas las transacciones de datos inter die.

Implementación del Ring Bus en Sandy Bridge.

El ancho de banda del bus de datos es de 32 bytes, es decir, 256 bits y su topología es en anillo, es decir, escala con el número de cores y bancos de L3. A mayor número de cores o bancos de L3 mayor ancho de banda agregado.

Lo más llamativo del bus en anillo de Sandy Bridge (y Nehalem EX) es su implementación respetuosa con el consumo y el área de die, me explico:

Todos recordamos el famoso procesador Radeon HD 2900 de ATI con un ring bus de 512 bits, que debido a su desmesurada disipación térmica y consumo no pudo competir con sus análogos de nVidia hasta que ATI lo eliminó sustituyéndolo por una arquitectura convencional en su serie Radeon HD 3800.

En Sandy Bridge Intel ha utilizado power gating y clock gating extensivamente, además de aplicar un voltaje bajísimo al ring bus para conseguir una disipación térmica muy baja.

Por otro lado, es un dato muy importante, según los ingenieros de Intel, no ha representado un incremento de área ya que la infinidad de conductores necesarios para el Ring Bus se enrutan por otras capas del diseño bajo la caché L3.

Sandy Bridge quad core para socket LGA 1155.

Lo que se consigue con este ring bus es aumentar de manera lineal el ancho de banda agregado (total) con el número de Ring Stops (cores, bancos de L3, …) consiguiendo una escalabilidad perfecta.

Como he comentado en artículos anteriores, además se consigue una muy notable bajada de latencia de la caché L3, del orden del 30% (!!) que ya de por sí en Nehalem y Westmere era realmente rápida.

Ahora nos encontramos en los veintitantos ciclos de latencia respecto a los 38 - 42 ciclos de Nehalem y algo más en Westmere.

El System Agent de Sandy Bridge

El anteriormente denominado Uncore, Nocore o North Bridge ahora no incluye ya la caché L3, por lo que la L3 es síncrona a los cores, con lo que aumenta su frecuencia aumentando su ancho de banda y disminuye su latencia.

Sandy Bridge System Agent.

El System Agent se encarga de controlar todas las transacciones entre los cores, la GPU integrada, los coders y decoders de video integrados con:

La memoria principal a través de las dos controladoras DDR3.
Las GPUs externas a través de los puertos PCI Ex.
Los dispositivos externos a través del DMI vía chipset.

Para mejorar la disipación térmica y reducir el consumo en sistemas portátiles integra la controladora de video y la PCU (Power Control Unit) encargada de gestionar los voltajes y las frecuencias de los cores así como los Turbo Modes y los modos de ahorro de energía y el Power Gating a nivel de cores.

El Front End de Sandy Bridge

El Front End es la parte del microprocesador encargada de suministrar la secuencia de instrucciones X86 desde la caché L1i (cache L1 de instrucciones) y de descodificarlas a un formato más manejable (micro operaciones, uops).

Intel, en este apartado ha roto con el pasado y ha desarrollado un Front End revolucionario.

Estas instrucciones ya descodificadas se encuentran en un formato interno y propietario, son llamadas uops (micro operaciones) y son características de cada microarquitectura.

uop cache en Sandy Bridge, una especie de L0i.

Sandy Bridge mejora el Loop Stream Buffer de Westmere 32 nm que contenía hasta 28 uops con una estructura dedicada llamada Decoded uop Cache que es capaz de almacenar unas 1500 uops (sobre unos 6 KB de capacidad) y que actúa a modo de caché L0 de instrucciones suministrando a las etapas de ejecución fuera de orden instrucciones con menor latencia que la L1i de 32 KB y además manteniendo más fácilmente la cadencia de 4 uops / ciclo.

Además el Fetching desde esta nueva L0i se hace en paquetes de 32 bytes / ciclo, aumentando el llenado efectivo de las unidades de ejecución que le siguen en el pipeline.

Intel cita la tasa de aciertos de esta L0i en un 80% en código de aplicaciones típicas. En el caso de acierto (que como vemos es un 80% de las veces) se desconectan las etapas de Fetch y Decoding con el consiguiente ahorro energético y de temperatura (muy notable ya que el consumo de estas etapas es muy alto en CPUs de arquitectura X86).

Entre los mecanismos que forman parte integral del Front End nos encontramos con la lógica y SRAMs de Branch Prediction encargado de cargar en el orden correcto la secuencia de instrucciones después de una bifurcación en el código (Branch) decidiendo si la condición se cumple o no mediante lógica y algoritmos de especulación y distintas tablas de datos de historia precedentes.

El mecanismo de Branch Prediction

Sandy Bridge ha mejorado notablemente el manejo de Branches en el código, aumentando la tasa de acierto. Los ingenieros de Intel han optimizado el diseño pero permaneciendo en el misma footprint (la misma superficie).

Optimización del Branch Prediction en Sandy Bridge.

Utilizando técnicas de compresión sin pérdidas en Sandy Bridge se almacenan más datos de historia en la misma capacidad que en Westmere por lo que efectivamente se han ampliado al doble el número de entradas en las tablas de Targets, elevando con ello la tasa de aciertos de los algoritmos respecto a Westmere.

Estoy deseando probar Sandy Bridge en algoritmos ajedrecísticos.

Nos vemos en la segunda entrega.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

La microarquitectura de AMD Bulldozer. Actualizado - LowLevelHardware

2017-02-02T16:08:00.001+01:00

Con Bulldozer AMD ciertamente ha roto moldes en el rígido diseño de un procesador X86. El concepto de módulo con dos cores de enteros y una FPU sobredimensionada es novedoso y ciertamente tiene algunas ventajas sobre los diseños más convencionales.

Fotografía manipulada del die de AMD Orochi, el primer chip de arquitectura Bulldozer.

Esta organización de las unidades de proceso conlleva también cambios en el subsistema de caché y de memoria, en ellos me centraré en este artículo.

Las unidades de ejecución de Bulldozer

Como todos ya conocéis, Bulldozer combina dos INT cores junto con una FPU con capacidad FMAC para formar un módulo. Trabajando sobre el die manipulado por AMD y hecho público, podemos observar varios detalles, entre ellos los dos INT cores simétricos.

Organización de uno de los módulos Bulldozer con sus cachés externas L2 y L3.

Me remito a mi artículo anterior de LowLevelHardware:

Intel Core i7 SMT vs. AMD Bulldozer CMT – LowLevelHardware

En un módulo Bulldozer hay duplicadas algunas de las unidades de ejecución para conseguir con ello un aumento de prestaciones a la vez que se comparten algunas unidades que por su tamaño no es práctico duplicar.

Diseño general de Bulldozer 32 nm.

En el caso de Bulldozer 32 nm, AMD ha diseñado un procesador dotado de dos cores de enteros (INT cores) compartiendo:

El hardware de Branch Prediction.

La caché L1i de instrucciones de 64 KB y 2 vías.

Las etapas de fetch (32 bytes / ciclo).

Los cuatro decoders X86.

Componentes compartidos en el Front End.

La FPU dual de 128 bit FMAC con 2 pipelines FMAC 128 bit y 2 pipelines packed INT de 128 bit MMX.

La FPU compartida en Bulldozer 32 nm.

También son compartidos los siguientes componentes del die de Bulldozer:

El Data Prefetcher encargado de precargar datos en las caches.

La caché L2 compartida para cada dos INT cores con su L2 TLB.

La L2 compartida de Bulldozer 32nm, probablemente de 1 o 2 MB y 16 vías.

Los dos cores discretos de enteros en Bulldozer 32 nm.

En Bulldozer, al haber dos cores de enteros completos, hay muchas estructuras duplicadas:

Un scheduler de enteros (INT scheduler) por core, unificado para ALUs y AGUs.

Dos ALUs. Unidades de proceso de enteros.

Dos AGUs. Unidades de generación de direcciones de memoria.

L1d de 16 KB y 4 vías de asociatividad.

L1 DLTB de 32 entradas fully associative.

Juego de registros y de registros alias con su hardware de renombramiento.

Unidad de Load - Store con procesamiento fuera de orden en lecturas y escrituras a memoria con sus colas de comandos.

Analizando el die observamos los dos INT cores dentro de cada módulo:

Los INT cores de Bulldozer.

Después de este repaso a sus unidades de ejecución, vamos a examinar su arquitectura de caché.

Las cachés de Bulldozer

En cada módulo de Bulldozer AMD integra dos INT cores, cada uno con su caché privada L1d (datos) de 16 KB y 4 vías de asociatividad, en cambio, la caché L1i (instrucciones) sigue siendo única y mantiene la tradición de AMD: 64 KB y 2 vías de asociatividad.

Un módulo Bulldozer con su L2 privada de 2 MB y su banco de 2 MB de L3.

El análisis de die (que podéis examinar en el principio del artículo) manipulado por AMD para ocultar su verdadera estructura ya arroja algo de luz sobre las primera implementación de Bulldozer: el octal core Orochi.

Ampliando los INT cores, observamos las cachés de nivel 1:

Las pequeñas L1d de 16 KB y la L1i de 64 KB compartida.

Observamos numerosos bloques de SRAM, su uso es el siguiente:

Una de ellas es el BHT (Branch History Tables) utilizadas por los mecanismos de Branch Prediction.
Dos son los Write Buffers (Buffers de Escritura Combinada) utilizados para crear un flujo ordenado de datos hacia la L2 compartida de 2 MB desde las dos pequeñas L1d de 16 KB y 4 vías.

Las SRAM de los Write Buffers son necesarias ya que las L1d han cambiado su política de exclusiva (como en los cores anteriores de AMD) a inclusiva (como en los microprocesadores Intel), por ello es necesario “copiar” a L2 los datos escritos en cada una de las dos pequeñas L1d.

Con alta probabilidad en la parte inferior del módulo se observa la doble FPU FMAC de 128 bit con 2 pipelines extra para MMX 128 bit y en la parte superior las etapas de Fetch y X86 Decoding que se alimentan de las instrucciones procedentes de la caché L1i de 64 KB y dos vías a razón de 32 bytes / ciclo.

Los bloques funcionales de la izquierda son principalmente circuitería relacionada con el Hardware Prefetching.

Esquema del módulo Bulldozer.

Las latencias de caché parece que serán bastante mediocres:

4 ciclos para las L1d de 16 KB y 4 vías.
18 ciclos para la L2 de 2 MB (seguramente de 16 ó incluso 32 vías)

Veremos si gracias al motor OOO avanzado de Bulldozer AMD consigue ocultar estas altas latencias al software encontrando al vuelo instrucciones suficientes para enviar a las unidades de ejecución (sin L2 misses).

Estoy deseando echar un vistazo en Noviembre al verdadero die de Bulldozer en alta resolución.

Bulldozer y la memoria

Los roadmaps de tecnologías de memoria no anuncian DDR5 hasta 2015, nos debemos conformar con DDR3 hasta entonces.

Roadmap RAM hasta 2015. Fuente: MEMCON10.

Bulldozer montará un dual channel DDR3 hasta 2.13 GHz para un ancho de banda agregado de 31.2 GB/s por die de 8 INT cores.

Para servidores, Interlagos, la versión MCM de Bulldozer con 2 dies de 8 INT cores en un chip para socket G34, contará con un quad channel DDR3 hasta 1.86 GHz para un ancho de banda total de 59.7 GB/s (!!) por socket.

Contemporáneamente, Sandy Bridge 8 cores (16 threads) contará con 4 canales DDR3 en socket 2011 probablemente con la misma frecuencia y ancho de banda que Interlagos (1.866 GHz y 59.7 GB/s).

Algo “raro” en Bulldozer

Veo una extraña y alarmante falta de ancho de banda de decodificación en Bulldozer (4 instrucciones / ciclo) para el anchísimo hardware de ejecución que tiene detrás:

2 INT cores con 2 ALUs y 2 AGUs por core
1 FPU con 2 pipelines FMAC de 128 bit y 2 pipelines packed integer MMX de 128 bit

En total, un módulo, es capaz de ejecutar en paralelo:

4 INT (core 0) + 4 (FPU / MMX) + 4 INT (core 1)

Es decir 12 instrucciones por ciclo y solo son decodificadas 4 por ciclo (??).

Quizás AMD se esconda un as en la manga …

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Previo Intel Sandy Bridge. Actualizado – LowLevelHardware

2017-02-02T16:08:00.000+01:00

Debo reconocer que siento admiración y hasta cierto punto incluso perplejidad sobre cómo han logrado los ingenieros de Intel mejorar tanto una arquitectura ya sobresaliente como Nehalem…

Ya en algunos artículos pasados he hablado de Sandy Bridge:

Intel Core i7 SMT vs. AMD Bulldozer CMT – LowLevelHardware 25 Agosto 2010
Intel Sandy Bridge versus Westmere die. Actualizado – LowLevelHardware 02 Agosto 2010
Novedades y expectativas 2010. Actualizado – LowLevelHardware 29 Julio 2010
Micrografía detallada de Intel Sandy Bridge – ProfessionalSAT 20 Junio 2010
Intel Sandy Bridge. Introducción – ProfessionalSAT 18 Abril 2010

Intel Tick - Tock

Todos conocemos el modelo de trabajo Tick - Tock de Intel, cada dos años nueva microarquitectura y en los años intermedios nuevo proceso de fabricación:

El exitoso e implacable modelo Tick – Tock de Intel.

2005 Presler 65 nm (Intel Pentium D, 2 cores, 2 + 2 MB L2) Tick
2006 Conroe 65 nm (Core 2 Duo, 4 cores, 4 + 4 MB L2) Tock
2007 Penryn 45 nm (Core 2 Duo, 4 cores, 6 + 6 MB L2) Tick
2008 Nehalem 45 nm (Core i7, 4 cores SMT, 8 MB L3) Tock
2009 Westmere 32nm (Core i7, 6 cores SMT, 12 MB L3) Tick
2010 Sandy Bridge 32 nm (Core i7 SMT, 6+ cores SMT) Tock
2011 Ivy Bridge 22 nm (Core i7 SMT, 8+ cores SMT) Tick

El Tick significa nuevo proceso de fabricación, más fino, transistores menores y mayor densidad por unidad de superficie. Cachés mayores, menor consumo,menor disipación térmica y mayor frecuencia.

El Tock por el contrario consiste en una nueva microarquitectura para aprovechar todas las ventajas aportadas por el nuevo proceso de fabricación del año anterior.

Sandy Bridge esta fabricado en el mismo nodo que los recientes procesadores Westmere de 6 cores y 12 MB de L3 para socket 1366 o los Core i3 e i5 con GPU integrada para socket 1156. Comparte con ellos la tecnología de fabricación de 32 nm HKMG.

Intel Sandy Bridge, pequeña introducción

Lo que cambia en Sandy Bridge y cambia de verdad es la microarquitectura; reconozco que inicialmente y viendo la poca competencia con que Intel se enfrenta en gama alta pensé que Sandy Bridge sería una mejora más sutil sobre los excelentes cores Nehalem que nos acompañan desde 2008.

Intel Sandy Bridge socket 1155. Quad core con GPU integrada, 8 threads y dual DDR3.

Continuará con la capacidad SMT de dos threads por core (HyperThreading) y numerosas mejoras a nivel de cores, caches, interconexiones inter core, disipación térmica y GPU integrada.

El núcleo de ejecución incluyendo las L1d y L1i y la caché L2 de 256 KB.

A nivel de cores espero un incremento en IPC por core de un 20% (!!) en enteros y un 100% en código AVX 256 bit FPU respecto al antiguo código SSE de 128 bit respecto a Westmere. Es algo prácticamente increíble sabiendo con qué lo comparamos pero es así… tiempo al tiempo.

Una mejora crítica en Sandy Bridge es su subsistema de caché L3. Está basado en una arquitectura RING BUS. Esta arquitectura es conocida por el revolucionario procesador octal core Nehalem EX, que con su doble RING BUS bidireccional logra superlativos resultados en ancho de banda y latencia de su masiva L3 de 24 MB en 8 bancos de 3 MB.

En Sandy Bridge conllevará reducciones de latencia L3 del orden de 15 ciclos para la L3 compartida de 8 MB, quedando en unos 25 – 28 ciclos efectivos load to use… simplemente brutal.

Los cuatro bancos de L3.

En el terreno del consumo eléctrico, Sandy Bridge consigue mejorar a Lynnfield (p.ej. Core i7 880), el mejor procesador en performance per watt con diferencia.

Sobre la GPU integrada, Sandy Bridge llegará en sus versiones básicas al nivel de SVGAs PCIEx de gama baja como las ATI 5450. Las versiones alta de SB se moverán ya en niveles de prestaciones gráficas realmente aceptables, sobre una ATI 4650 con 320 SPs o algo superior.

Detalle de la GPU y la circuitería colateral.

Los sockets de Sandy Bridge

Intel ha diseñado dos nuevos e incompatibles socket para Sandy Bridge:

Socket 1155. Sustituto del actual LGA1156, contará con 2 canales DDR3.
Socket 2011. Sustituto del actual LGA1366 contará con cuatro (!!) canales de DDR3 hasta 2133 MHz. Serán excelentes para mis Sistemas de Altas Prestaciones.

Meditad sobre el 20 % de mejora en IPC clock for clock y core for core respecto a Westmere… a mí me cuesta asumirlo. Estoy deseando echarle el guante a los primeros ejemplares para socket 2011, será en Q2 - Q3 2011.

Más por llegar…

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

Intel Core i7 SMT vs. AMD Bulldozer CMT - LowLevelHardware

2017-02-02T16:07:00.001+01:00

En este artículo voy a ilustrar dos conceptos:

El concepto de procesador SMT (Simultaneous Multithreading) utilizado hace años por Intel, primero en su línea Netburst y actualmente con sus brillantes CPUs Nehalem 45 nm ,Westmere 32 nm y próximamente en 2011 Sandy Bridge (32 nm).
El nuevo diseño CMT (Cluster Multithreading) utilizado por AMD en sus futuros procesadores basados en la microarquitectura Bulldozer para 2011.

CMT en AMD Bulldozer 32nm.

Empiezo primero por el concepto de SMT utilizado por Intel en su tecnología HyperThreading, el lector impaciente puede avanzar más abajo para ver la implementación de CMT en AMD Bulldozer.

SMT (Simultaneous Multithreading)

SMT es un concepto nacido con el fin de ocupar al máximo y durante el mayor porcentaje de tiempo posible los recursos de proceso de un procesador, esto se logra ejecutando simultáneamente dos o más threads en un único core.

Intel Hyper Threading.

De nada sirve un core con 8 ALUs de proceso de enteros si no hay instrucciones suficientes para llenarlas o si estas instrucciones necesitan datos que no están todavía disponibles para la ejecución.

El primer integrante de la saga Netburst, Willamette 180 nm.

Intel, durante el desarrollo de su primer procesador Pentium 4 (microarquitectura Netburst) se dio cuenta de que muchas de sus unidades de ejecución (ALUs, AGUs, FPUs) estaban un porcentaje significativo del tiempo de ejecución de un programa desocupadas, en reposo por falta de instrucciones o datos.

Esto era debido principalmente a tres hechos:

L1d Cache mises: Fallos de caché L1d (datos). Si queremos sumar dos números, deberemos conocer esos números antes de ejecutar la instrucción suma sobre los datos. Si los datos no están en la caché L1d, el procesador deberá chequear la caché L2 debiendo esperar en circunstancias reales un mínimo absoluto de 10 ciclos en un P4 Willamette 180 nm o Northwood 130 nm.
Branch missprediction: Fallo en la predicción de saltos. Los procesadores, desde hace décadas intentan averiguar dónde va a “saltar” la ejecución del programa para tener ya esas instrucciones preprocesadas. Este mecanismo consigue aumentos notables de velocidad de proceso aunque en caso de fallo en la predicción (sobre un 5 % en CPUs modernas) se produce un vaciado de los pipelines de instrucciones y una reejecución de las mismas con la consiguiente penalidad en rendimiento.
Falta de ancho de banda del decoder que de la trace cache en caso de Trace Cache Miss: La trace cache era capaz de suministrar tres instrucciones / ciclo a las unidades de ejecución pero en caso de no encontrarse la instrucción en la TC se daba un TC Miss. Lamentablemente, y era una increíble limitación del diseño Netburst, el decoder previo a la TC solo introducía instrucciones decodificadas a un ritmo de una por ciclo. Absolutamente insuficiente, cualquier CPU de su época decodificaba 3 instrucciones / ciclo (Pentium III, AMD Athlon).

La Trace Cache de Pentium 4 Northwood 130 nm.

Las dos primeros causas de desocupación en las unidades de proceso se resolvian, al menos parcialmente gracias al SMT. Sobre el diseño de la TC, no tenía solución y lo dejo para otro artículo futuro…

SMT consiste en ejecutar a la vez dos threads de una misma aplicación o de dos aplicaciones diferentes en un core. Para ello se deben de rediseñar muchos aspectos del procesador de dos modos:

Hay partes del core que se deben de duplicar por thread.
Otras estructuras deben particionarse.

SMT añade gran complejidad al diseño del procesador.

Estas partes de la CPU a duplicar o particionar comprenden todas las zonas de almacenamiento de código y datos del procesador:

Es necesario duplicar el número de registros arquitecturales y de registros renombrados por thread.
Se deben de dimensionar al alza todas las colas (queues) de instrucciones del procesador para asegurar espacio para dos threads distintos y que la lógica de procesamiento fuera de orden (OOO Logic) tenga suficientes instrucciones dentro de la ventana (OOO window) listas para ejecutar y mantener las etapas de ejecución llenas.
Todo esto debe hacerse con un sistema que prevenga y evite la competencia por los recursos entre los dos threads, para evitar problemas de rendimiento.

Pipeline del P4 Willamette 180 nm. En amarillo y verde instrucciones de cada thread.

Todo ello conlleva una cantidad de hardware adicional (transistores) estimada entre un 5 y un 10% del área del procesador.

En Pentium 4 Willamette Intel cifró el incremento en un 5%.

La buena noticia es que el SMT aumenta de forma típica el rendimiento de un core de un 10 a un 70% en función del código.

En Pentium 4 yo medí en múltiples ocasiones sobre un 30% de mejora con Hyper Threading habilitado. En Core i7 la mejora es todavía superior.

4 cores, 8 threads gracias al SMT: Nehalem 45 nm Intel Core i7.

CMT (Cluster Multithreading) en AMD Bulldozer

El concepto CMT es la respuesta de AMD al SMT de Intel: Hyper Threading.

AMD llama a cada conjunto de 2 INT cores y 1 FPU compartida (más las cachés L1 y otra circuitería) un módulo.

El concepto original de CMT.

CMT consiste en duplicar algunas de las unidades de ejecución para conseguir con ello un aumento de prestaciones a la vez que se comparten algunas unidades que por su tamaño no es práctico duplicar.

Diseño general de Bulldozer 32 nm.

En el caso de Bulldozer 32 nm, AMD ha diseñado un procesador dotado de dos cores de enteros (INT cores) compartiendo:

El hardware de Branch Prediction.
La caché L1i de instrucciones de 64 KB y 2 vías.
Las etapas de fetch (32 bytes / ciclo).
Los cuatro decoders X86.

Componentes compartidos en el Front End.

La FPU dual de 128 bit FMAC:

La FPU compartida en Bulldozer 32 nm.

También son compartidos los siguientes componentes del die de Bulldozer:

El Data Prefetcher encargado de precargar datos en las caches.
La caché L2 compartida para cada dos INT cores con su L2 TLB.

La L2 compartida de Bulldozer 32nm, probablemente de 1 o 2 MB y 16 vías.

En Bulldozer, al haber dos cores de enteros completos, hay muchas estructuras duplicadas:

Los dos cores discretos de enteros en Bulldozer 32 nm.

Un scheduler de enteros (INT scheduler) por core, unificado para ALUs y AGUs.
Dos ALUs. Unidades de proceso de enteros.
Dos AGUs. Unidades de generación de direcciones de memoria.
L1d de 16 KB y alta asociatividad.
L1 DLTB de 32 entradas fully associative.
Juego de registros y de registros alias con su hardware de renombramiento.
Unidad de Load - Store con procesamiento fuera de orden en lecturas y escrituras a memoria con sus colas de comandos.

La verdad es que es una cantidad de circuitería notable a duplicar, aunque AMD afirma que la superficie del procesador no ha aumentado demasiado por ello.

Según AMD, la mejora de prestaciones en enteros gracias a integrar un segundo core en el módulo ronda el 80%.

En cuanto haya disponibles fotografías del die de Bulldozer veremos cuanto hay de cierto en ello y ya en 2011 cual es la competitividad real de este nuevo diseño.

En cualquier caso me es llamativa la reducción de 3 a 2 ALUs y AGUs por INT core de Phenom II a Bulldozer que puede acarrear reducción de rendimiento single threaded, aunque creo que será compensada con los demás avances a nivel de core.

Echad un vistazo a la web de mi nueva empresa, un proyecto de gran envergadura que llevo preparando hace más de un año.

Os lo recomiendo para diseño de sistemas de altas prestaciones:

Allí tenéis a vuestra disposición el formulario de contacto, para consultas sobre este artículo hacedlo más abajo en la sección de comentarios.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

MEMCON10: DDR4 y roadmap de memoria 2015 - LowLevelHardware

2017-02-02T16:07:00.000+01:00

El pasado mes de Julio se celebró la convención MEMCON10, donde acuden los principales fabricantes y diseñadores de chips de memoria así como otros expertos en la materia. En este congreso se definieron los roadmaps futuros en el campo de las memorias de acceso aleatorio para sistemas de todos los segmentos y se analizaron las previsiones pasadas y sus desviaciones con la realidad actual.

Roadmap RAM hasta 2015. Fuente: MEMCON10.

En los sistemas actuales la memoria de uso generalizado es DDR3 en frecuencias desde los 1.066 GHz hasta los 1.6 GHz y en modelos concretos llegamos hasta los 2.5 GHz, se estima que el zenit de la memoria DDR3 se alcanzará en los 2.133 GHz a 1.5 V en módulos estándar (como ahora lo son los DDR3 1.333 GHz) a finales de 2014.

El cruce en producción DDR2 vs. DDR3 se produjo a principios de 2010.

El desarrollo de DDR4 se ha dilatado en el tiempo más de lo esperado, y esto ha creado la necesidad de crear bins de mayor velocidad en DDR3, lo que nos llevará hasta los 2.133 GHz. La previsión inicial detallaba la DDR4 en sistemas ya en 2013:

Roadmap inicial, posicionaba DDR4 en 2013.

El tiempo ha demostrado que es más prudente asegurar el desarrollo de DDR4 y mientras tanto seguir con DDR3 poniendo énfasis en la reducción de voltaje para moderar el consumo.

El estado presente de las tecnología RAM.

Como todos sabemos, en el segmento de GPUs la memoria estrella es la GDDR5 en frecuencias que rondan ya los 5 GHz en productos finales (ATI de la serie HD5000) y hasta 7 GHz en chips discretos que serán integrados en la siguiente generación (ATI Southern Islands, ATI HD6000).

Proyecciones para DDR4.

En 2015 llega DDR4 con frecuencias iniciales de 2.133 GHz y 1.20 V. Con posibilidad de llegar en futuro sobre los 4.266 GHz. En 2013 se estima estar sobre los 3.2 GHz. Más allá se abre el terreno a la especulación, pero estaremos ya en 2018…

Consumos estimados para cada generación de DRAM.

Como vemos, la disipación térmica obliga a ir reduciendo constantemente el voltaje de los chips y con ello su consumo pero con ello se incrementa la sensibilidad al ruido de los canales de transferencia de datos obligando a los diseñadores a agudizar el ingenio con soluciones innovadoras.

Se estima que la DDR3 irá reduciendo su voltaje hasta los 1.25 V en el final de su evolución y la DDR4 empezará en 1.20 V e irá paulatinamente reduciéndolo hasta los 1.05 V.

En las primeras versiones, DDR4 disipará más calor que la DDR3 de voltaje reducido, para, en sucesivas revisiones ir reduciendo su consumo.

Conforme avanzan los procesadores multicore aumenta la necesidad de mayor ancho de banda.

La preocupación principal de los expertos estriba en los voraces requerimientos de los procesadores multicore actuales y en su desmedido crecimiento año a año.

La industria de la memoria no es capaz de proporcionar incrementos prestacionales de tal calibre y aumenta cada vez más el vacío de velocidad y latencia entre los cores y la memoria principal.

Para paliar este fenómeno cada vez se integran cachés multinivel de estructura y gestión más compleja y mayores tamaños, así como se amplia en la medida de lo posible el acceso multicanal a los bancos de memoria RAM.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.