domingo, 16 de febrero de 2014

AMD Steamroller core. AMD Kaveri. Parte 2 – LowLevelHardware

La primera implementación comercial de los cores Steamroller 28 nm es en las nuevas APU Kaveri, formadas por 2 clústers de 2 INT cores y una FPU y dos cachés L2 de 2 MB junto con la GPU integrada basada en la última generación de gráficas Radeon GCN 2.0.

Kaveri28nmDie de AMD Kaveri 28nm. En naranja la GPU Radeon R7.

El proceso de fabricación de 28 nm SHP de Global Foundries

AMD ha dado un paso decidido que marca una nueva etapa para la compañía: deja los procesos de fabricación orientados solamente a altísimas frecuencias (superiores a los 4 GHz) y opta por el contrario por procesos Bulk dirigidos a menor consumo, menor área con una penalización en frecuencia máxima.

Es decir, un procesador fabricado en el nuevo nodo de 28 nm SHP presenta mayor densidad de transistores por mm2, menor coste de fabricación, menor consumo a una frecuencia dada (por ejemplo en el rango hasta los 4 GHz aprox.) a costa de frecuencias pico inferiores.

A mi modo de ver una sabia y completamente acertada decisión, ya que, anteriormente, AMD no podía desplegar el potencial verdadero de frecuencia de la microarquitectura Bulldozer debido a su excesivo consumo al ir subiendo la frecuencia de funcionamiento con el necesario aumento exponencial de voltaje.

Es de esperar por ello, que desde ahora AMD se dedique a integrar más funcionalidades en cada uno de sus chips (más cores, más potencia de GPU…) ya que tiene un nuevo margen de disipación térmica máxima o TDP.

El core Steamroller

EN la tercera iteración de la familia de cores 15h, microarquitectura Bulldozer para los amigos, AMD ha hecho cambios realmente importantes respecto a la primera y segunda generación.

Steamroller Compute UnitUn cluster de arquitectura Steamroller: 2 INT cores, 1 FPU y 2 MB de L2.

Steamroller Cluster 640Fotografía de un clúster Steamroller perteneciente a un die AMD Kaveri 28nm.

EN AMD Kaveri se integran dos Clústers completos para un total de 4 INT cores:

Kaveri 2 Clusters 2xL2AMD Kaveri: Dos clústers Steamroller 28nm con sus cachés L2 enfrentadas.

En el siguiente artículo me centraré en las mejoras, muy extensas, introducidas por AMD en Steamroller.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

domingo, 9 de febrero de 2014

AMD Steamroller. Introducción. – LowLevelHardware

El 14 de Enero AMD sacó al mercado su tercera iteración de la micro arquitectura Bulldozer en la forma de la APU Kaveri fabricada por Global Foundries es el nodo Bulk SHP (Super High Performance) de 28 nm. En este caso se trata de una implementación de dos módulos con dos INT cores y una FPU compartida junto con una excelente GPU GCN 1.1 de 512 SPs.

excavator

La micro arquitectura AMD Bulldozer

Primero fue Bulldozer 32 nm HKMG, después Piledriver 32 nm HKMG y ahora Steamroller 28 nm Bulk SHP. Posteriormente, 2015, está previsto Excavator, la evolución final y que pondrá término a esta micro arquitectura. Después preveo que AMD, por fin, se centrará en diseñar cores de alto IPC y menor consumo para competir con mayor igualdad con los cores contemporáneos de Intel.

Como muchas veces ha sucedido con los diseños de AMD, en su primera versión.

En este caso Bulldozer 32 nm HKMG (AMD FX 8150) las prestaciones, consumo y disipación térmica no fueron las esperadas.

Piledriver 32 nm HKMG (AMD FX 8350) alivió ligeramente los problemas de consumo y mejoró las prestaciones.

Con Steamroller AMD plantea un cambio mucho más profundo:

  • Una evolución de la micro arquitectura mayor que en el caso de Bulldozer a Piledriver, con claras mejoras en algunos campos y otros cambios no tan claros en otros aspectos.
  • Un nuevo nodo de fabricación: del ya antiguo nodo premium HKMG 32 nm de Global Foundries utilizado en Bulldozer y Piledriver se pasa al nodo de 28 nm Bulk SHP, más orientado a menor consumo y mayor densidad (más transistores por mm2), es decir menor coste por chip y menor TDP, es decir, mayor performance per watt.

module-block

En la segunda parte de esta serie de artículos detallaré las mejoras implementadas en Steamroller por AMD y lo que significan de cara a sus encarnaciones presentes:

La APU Kaveri y los futuros chips FX Steamroller de alto rendimiento del que parece que están preparando una versión con 8 módulos y 16 INT cores con controladoras PCIex 3.0 integradas en el die del chip (lo que permitiría deshacerse del  North Bridge del chipset) que probablemente funcionará a frecuencias conservadoras en carga full threaded aunque con agresivos modos Turbo.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

lunes, 10 de junio de 2013

Intel Silvermont 22nm. Micro arquitectura. Etapas de Fetching – LowLevelHardware

En un artículo de ProfessionalSAT he hecho una introducción al nuevo procesador Atom Silvermont de 22 nm de Intel. Recomiendo la lectura de ese texto para estar familiarizado con algunos de los conceptos que son utilizados en el presente.

El mayor cambio en Silvermont respecto a los anteriores cores de la familia Atom es el cambio al procesamiento Out of Order (OoO) desde el primitivo concepto de ejecución In Order.

Ahora voy a describir, paso a paso, el pipeline de ejecución de Silvermont y las mejoras que aporta respecto a los antiguos cores (Bonnell 45 nm, Saltwell 32 nm).

Mejoras en las etapas de Fetch

Las etapas de fetching o carga de instrucciones son las primeras del pipeline de ejecución de cualquier procesador.

En Silvermont se ha llevado a cabo un rediseño profundo encaminado a alimentar adecuadamente de instrucciones a la nueva maquinaria de procesamiento out of Order.

Silvertmont_FetchFetch en Atom Silvermont 22 nm.

La predicción de saltos o Branch Prediction ha sido totalmente reconstruida de un modo distinto a los antiguos Atom. Se ha dividido en dos componentes independientes que actúan cada uno por separado y están situados en diferentes etapas del pipeline de procesamiento.

El primer componente es el Predictor de Fetching (Fetch Predictor). Es un Branch Target Buffer, un predictor de baja latencia y con una precisión elevada pero no extrema.

La unidad de Fetching carga cada ciclo 16 bytes de instrucciones desde la caché L1i con ayuda del L1 iTLB en los 6 Prefecth Buffers. Estos buffers aíslan las etapas de fetch de las posteriores etapas de decodificación X86 y así puede adelantarse a estas en el stream de instrucciones.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Etiquetas de Technorati: ,,,,,,,

viernes, 7 de junio de 2013

Electromigración en microprocesadores – LowLevelHardware

Todos los componentes, tanto los mecánicos como los electrónicos, están sometidos a un desgaste por el uso y en este grupo incluyo a los microprocesadores, cachés y chips de memoria DRAM y Flash.

En un nuevo artículo en ProfessionalSAT profundizo en la relación temperatura – degradación física de semiconductores:

Temperatura y degradación física en semiconductores –ProfessionalSAT

Recientemente he sufrido personalmente los efectos de la electromigración en varios de mis sistemas junto con otros de mis clientes, todos ellos de una antigüedad similar. En este caso, la degradación y posterior avería se ha producido en la memoria DDR3 de algunos de mis Sistemas de Altas Prestaciones basados en CPUs Core i7 de la serie 900.

Bild5Microfotografía: creación de un cruce entre dos conductores por electromigración.

Por ejemplo, un disco duro se degrada día a día durante su utilización normal y conforme pasan los meses podemos seguir la variación de sus parámetros de funcionamiento mediante la tecnología SMART que nos informa crípticamente del estado de salud del dispositivo. (Prometo un artículo sobre SMART cuando tenga tiempo…)

Electromigración

En dispositivos altamente miniaturizados como una CPU / GPU o un chip DRAM DDR3 o GDDR5 (memoria actual de las GPUs) se da una degradación constante de sus características eléctricas. La electromigración es el proceso causante de la mayoría de fallos en este tipo de dispositivos.

1153426521

La electromigración consiste en el arrastre y transporte de los átomos metálicos del conductor por el constante flujo de alta intensidad de electrones que lo atraviesa.

Se da una transferencia de momento (cantidad de movimiento) del electrón al núcleo metálico (literalmente lo golpean mayoritariamente en una dirección y sentido) y el núcleo va avanzando paso a paso en el sentido de la corriente creando dos tipos de anomalías:

Huecos: hay zonas que literalmente se vacían de metal, incrementando la resistencia del conductor y eventualmente provocando un fallo total del dispositivo por corte de corriente.

Void_formationFormación de huecos por electromigración.

576804216Este hueco ha causado un fallo total en el dispositivo al interrumpir la corriente.

Acumulaciones: en otras zonas, el material metálico se agrega y crea áreas de mayor contenido metálico, se incrementa la sección del conductor y puede llegar a crear puentes de conducción con líneas adyacentes llevando también al fallo del dispositivo.

atwu-2Puente metálico entre dos conductores creando un corto circuito.

En casos extremos la creación de acumulaciones puede llegar a fracturar el aislante y crear corto circuitos con zonas vecinas.

Factores que influyen en el proceso de electromigración

Favorecen la electromigración:

Las altas temperaturas. Se produce un incremento en la resistencia eléctrica del conductor metálico y aumentan las vibraciones atómicas de los núcleos metálicos.

Consultar: Temperatura y degradación física en semiconductores –ProfessionalSAT

Las corrientes elevadas (altas intensidades). A mayor flujo electrónico, mayor transferencia de momento de los electrones a los átomos metálicos de cobre o aluminio.

La poca sección de los conductores. A menor sección mayor densidad de corriente y más electromigración. En microprocesadores contemporáneos, de 32 nm (o 28 y 22nm), está claro que este factor es importante.

Minimizar los efectos de la electromigración

Está claro que debemos hacer lo posible para eludir los catastróficos efectos de la electromigración:

PIC03263

Debemos reducir la temperatura de funcionamiento de nuestros procesadores y memorias DRAM al mínimo posible:

Mediante el uso de los mejores sistemas de refrigeración disponibles.

El uso de una pasta térmica adecuada a la superficie del radiador de CPU (según la rugosidad de la base).

 

DSCF2366Un detallado estudio del flujo de aire es necesario en ciertos sistemas.

Y el exhaustivo estudio de la circulación del aire en la torre y la optimización de las presiones y flujos de aire.

PIC03259Uno de mis Sistemas de Altas Prestaciones con 6 DIMM DDR3 refrigerados por dos Noctua.

En el caso de los módulos DIMM de memoria DRAM DDR3 o la memoria GDDR5 presente en las GPUs actuales, lo único que podemos hacer es garantizar sobre ellas el mayor flujo de aire posible y a una temperatura adecuada. (Fotografía superior).

EMDaños en un conductor por electromigración.

Es importante mantener el voltaje de alimentación del dispositivo en el mínimo posible que garantice la estabilidad del sistema y la exactitud total en nuestros cálculos o procesos.

A ser posible es recomendable escoger manualmente los procesadores y los módulos de memoria (hand picking) seleccionando los que posean las mejores características eléctricas (menor voltaje de funcionamiento a la frecuencia deseada u objetivo).

EM1Proceso de electromigración, creación de un hueco.

En mis Sistemas de Altas Prestaciones sigo todas estas directrices a rajatabla y aún así no me he librado de los efectos de la electromigración como podéis observar en mi artículo de ProfessionalSAT.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.