domingo, 26 de febrero de 2017

AMD Ryzen 7 – 8 cores 16 threads y 4 GHz

Mi nuevo artículo en Blog | informaticapremium sobre lo último de AMD Ryzen.

Un core AMD Ryzen con su banco L3 de 2 MB.

El procesador AMD Ryzen 7, la estrella de la gama, llega con 8 cores, 16 threads y 4 GHz en modo turbo para revolucionar el mercado…

… Literalmente.

El procesador AMD Ryzen 7 1800X.El procesador AMD Ryzen 7 1800X. 4 + 4 cores, 16 threads y 8 + 8 MB de L3.

La gama alta de los procesadores Ryzen competirá con las CPU Intel de la serie 6800 y 6900 de 6, 8 y 10 cores en socket 2011.

Ahora mismo sus precios son muy elevados, pero, sin duda Intel procederá a ajustarlos de modo importante en breve.

La serie de procesadores AMD Ryzen 7 queda así:

AMD Ryzen 7 1800X: 8C y 16T, 3.6 GHz – 4.0 GHz turbo.

Ryzen 7 1700X: 8C y 16T, 3.4 GHz – 3.8 GHz turbo.

Ryzen 7 1700:   8C y 16T, 3.0 GHz – 3.7 GHz turbo.

Seguir leyendo en Blog | informaticapremium.

Carlos Yus Valero – informaticapremium

lunes, 13 de febrero de 2017

AMD Ryzen. Últimos detalles – informaticapremium

He publicado un nuevo artículo en Blog | informaticapremium sobre las últimas novedades conocidas sobre los procesadores AMD Ryzen.

 

AMD Ryzen monopoliza los titulares en la industria de semiconductores por las excelentes expectativas respecto a su rendimiento. Y no es para menos, pues pondría de nuevo a AMD en una lucha de iguales con Intel tras más de una década.

 

AMD Ryzen. Últimos detalles.

En este artículo voy a tratar varios detalles novedosos de los procesadores AMD Ryzen:

  • AMD XFR y los procesadores Ryzen X
  • La ventaja en mm² de Ryzen respecto a Skylake
  • AMD se pone al día en proceso de fabricación, 14 nm
    • El core AMD Zen 14 nm
    • Las versiones comerciales de AMD Ryzen
  • Los precios de las CPU AMD Ryzen
  • La reacción del gigante: Intel
  • El lanzamiento comercial de AMD Ryzen
  • AMD XFR y los procesadores Ryzen X

Seguir leyendo en Blog | informaticapremium.

Carlos Yus Valero – informaticapremium

jueves, 2 de febrero de 2017

Pasta térmica y procesadores – informaticapremium

He publicado un nuevo artículo e Blog | informaticapremium sobre la selección, tipos, aplicación, etc de la pasta térmica.

La selección de la pasta térmica para nuestro sistema cobra mayor importancia día a día por la creciente optimización de procesadores y tarjetas gráficas hacia entornos de bajo consumo (portátiles, tablets, smartphones…)

Pasta Térmica (TIM) y resistencia térmica.

La función de la pasta térmica es rellenar los espacios entre la superficie del chip (sea CPU, GPU, chipset…) y la superficie del radiador y así optimizar la transferencia de calor.

Radiador y procesador sin pasta térmica. Hay espacios con aire entre chip y radiador.

Al rellenar estos espacios con la interfaz térmica se optimiza el intercambio térmico entre las dos superficies porque se crean puentes de partículas termo conductoras.

No todas las pastas térmicas son iguales

Encontramos en el mercado numerosas marcas y especificaciones y no todas son adecuadas para cualquier disipador. Sobretodo hay que prestar atención a la rugosidad de la superficie del radiador.

Seguir leyendo en Blog | informaticapremium

¡¡ Un saludo !!

Carlos Yus Valero – informaticapremium      informaticapremium-logo-150px[3]

AMD Ryzen, chipsets y placas base – informaticapremium

AMD Ryzen está llamado a ser el procesador que va a traer competencia al sector tras una década de aplastante dominio de Intel.

Ryzen irá montado en placas base con socket AM4 y memorias dual channel DDR4 a altas frecuencias y con las últimas tecnologías del momento.

Con Ryzen AMD ha diseñado chipsets a la altura de las expectativas

Seguir leyendo en Blog | informaticapremium

¡¡ Un saludo !!

Carlos Yus Valero.

NVMe vs AHCI: Almacenamiento – informaticapremium

NVMe (Non Volatile Memory Express) es el nuevo standard sustituto de AHCI para almacenamiento sólido. En este artículo detallo las diferencias NVMe vs AHCI.

Samsung 960 Pro NVMe M.2 SSDSamsung 960 Pro NVMe M.2 SSD

NVMe está diseñado para aportar reducidas latencias y alta concurrencia de accesos al dispositivo Flash SSD. Normalmente a través de buses PCIe y en formato M.2 como, por ejemplo, los Samsung 960 evo y Pro.

NVMe vs AHCI

NVMe vs AHCI

AHCI (Advanced Host Controller Interface) fue un gran avance en su época.

Dotaba de cola de comandos y reordenación de accesos a los discos duros convencionales (mecánicos con medio magnético), con lo que se aumentaba notablemente la velocidad del sistema.

AHCI proporciona una cola de 32 comandos y reordenación de los accesos en función de si están más o menos disponibles en el tiempo.

NVMe vs AHCINVMe vs AHCI

Fue con la llegada de los discos SSD en formato SATA2 300MBps y posteriormente SATA3 600 MBps …

Seguir leyendo en Blog | informaticapremium

¡¡ Un saludo !!

Carlos Yus Valero.

AMD Zen cache – informaticapremium

AMD Zen cache: La nueva micro arquitectura presenta un subsistema de caché muy diferenciado y evolucionado respecto a su antecesor: AMD Bulldozer.

AMD Zen cache: Op cache L0i

Para empezar AMD integra una op-caché, una caché L0i de instrucciones que acelera mucho el procesamiento en caso de acierto, que si su tamaño ronda los 8 KB (AMD no lo ha desvelado) rondaría una tasa de aciertos del 80 - 90 %.

AMD Zen 14 nm Die
AMD Zen 14 nm Die: 2 clusters de 4 cores con 2 cachés L3 de 8 MB.

Este tipo de caché L0i la utiliza Intel (µop cache de 1.5 Kops) desde Sandy Bridge 32 nm y le ha dado excelentes resultados en …

Seguir leyendo en Blog | informaticapremium

¡¡ Un saludo !!

Carlos Yus Valero.

AMD Zen 14nm – Historia – Blog|informaticapremium

AMD Zen, la nueva arquitectura x86

AMD va a revolucionar el mercado de semiconductores en 2017 con su nueva micro arquitectura Zen fabricada en el proceso de manufactura FinFET de 14 nm.

AMD Zen 4 cores 8 MB L3 14 nm
AMD Zen 4 cores 8 MB L3 14 nm

Será crítico para la compañía ejecutar a la perfección el lanzamiento de Zen ya que con él pretende competir en gama media y media-alta con garantías.

AMD no puede supeditar su futuro empresarial a la lucha con Intel en gama baja. En ese segmento ha pasado la última década y le espera poco más que la ruina económica.

La historia reciente de AMD

Desde los éxitos de Athlon, Athlon 64 y Athlon 64 X2, AMD entró en una etapa de complacencia gracias a sus excelentes resultados financieros. La cancelación del procesador AMD K9 con un diseño de pipeline extra largo al estilo Intel Pentium 4 Prescott o Intel Tejas marcó un punto de inflexión y llegaron las prisas. El 'plan B' era Phenom 65 nm.

El primer error: el AMD Phenom 65 nm - Diciembre 2007

AMD Phenom 65 nm salió al mercado en un estado que me pareció entonces, simplemente, precipitado, inacabado:

Seguir leyendo en Blog | informaticapremium

Carlos Yus Valero.

Hardware - Presentación blog informaticapremium

Tenéis el artículo completo original en mi nueva Web, más abajo encontraréis el enlace.

Esta es una pequeña presentación y una declaración de intenciones sobre qué vais a encontrar bajo mi firma en este blog dedicado al hardware.

... Llevo años, muchos, en el infinito mundo de la informática.

Tuve mi primer ordenador en 1984 cuando era un niño, cuánto me costó convencer a mi padre de que semejante 'trasto' servía para algo...

Se trataba de un flamante Amstrad CPC 464 con procesador Z80 de 8 bit,
64 KB de RAM, unidad de cinta cassette e intérprete BASIC... a los pocos meses ya discutía con mi profesor de informática (sí, ya existían) sobre el funcionamiento del operador lógico XOR.

Mi primer Hardware AMSTRAD CPC 464
AMSTRAD CPC 464

¡Qué recuerdos! Por cierto, su robustez hace que todavía funcione perfectamente con su terrible monitor de fósforo verde.

En 1994 tuve mi primer equipo serio, un realmente caro y potente para la época Dell …

Seguir leyendo en informaticapremium | Blog

Carlos Yus Valero.

Mi nuevo proyecto empresarial – informaticapremium

Os presento mi nuevo proyecto empresarial, una apuesta muy ambiciosa y potente, en la que junto a expertos de diversas áreas vamos a llevar a cabo muy interesantes proyectos.

Ya hemos finalizado tres trabajos de envergadura, estad atentos a la nueva Web:

ip16_texto_300px_blanco

Y mi nuevo Blog, donde desde ahora encontraréis mis artículos con una buena frecuencia de publicación junto con otros de mis colaboradores:

infromaticapremium-blog

Como comprobaréis ya hay varios artículos de un gran nivel, por ejemplo uno sobre AMD Zen que en pocos días tendrá continuación y varios sobre programación.

Nos vemos en informaticapremium.com !!

Los 60000 ciclos AVX 256 bit perdidos en Intel Skylake – LowLevelHardware

Como todos conocéis, desde Sandy Bridge 32 nm, Intel introdujo las instrucciones AVX FPU de 256 bit en sus procesadores aumentando con ello en un factor 2 la potencia de cálculo FPU de sus CPUs respecto a Nehalem 45 nm y Westmere 32 nm.

Skylake core 14nmUno de los cores Skylake 14nm.

Con la microarquitectura Haswell 22 nm, Intel añadió el juego de instrucciones AVX2 y FMA FPU, que proporcionan proceso vectorial de enteros de 256 bit y unidades FPU Fused Multiply Accumulate combinadas respectivamente.

Intel Skylake Core i7 6700K

Hasta el momento, el Core i7 6700K es la CPU x86 quad core más rápida que he probado y además con un consumo de energía excelente. Y muy adecuada para cálculo matemático gracias al soporte AVX 256 bit y FMA junto a sus 8 threads simultáneos y el brutal ancho de banda de un dual channel DDR4 a frecuencias superiores a los 3 GHz.

En este artículo quiero resaltar una particularidad de los últimos procesadores Skylake 14 nm(Intel Core de sexta generación) que he comprobado en samples de Core i7 6700K configurados a 4.4 GHz.

Esta peculiaridad es el ahorro de energía en el que mantienen las unidades de cálculo vectorial de 256 bit cuando no están en uso, es decir, en las tareas más habituales del sistema operativo que no suelen involucrar cálculos FPU.

Es en el momento de lanzar un cálculo que actiave estas unidades de 256 bit, cuando se produce un fenómeno curioso.

Los 60000 ciclos AVX perdidos en Intel Skylake

Al inicio, y de manera sorprendente, la velocidad de proceso es de unas 4 a 6 veces inferior a la nominal en proceso AVX FPU, debido a que las unidades permanecen en ese estado latente de bajo consumo, probablemente con los 128 bit superiores deshabilitados y los datapath de 256 bit desactivado.

Tras un tiempo, dependiente de múltiples factores (la frecuencia de nuestro procesador, quizás de ajustes en la BIOS de nuestro sistema y también de peculiaridades o ajustes de nuestro sistema operativo) la velocidad de cálculo llega a su valor típico y normal y se mantiene ahí hasta finalizar el cálculo.

Skylake14nm 640Intel Skylake quad core 14 nm

Este tiempo de rendimiento reducido ronda los 60000 ciclos (unos 13 microsegundos en una CPU a 4.4 GHz).

Puede parecer poco tiempo, pero si nuestro cálculo consiste en pequeñas ráfagas de código AVX intercaladas entre otros fragmentos de código de otro tipo, puede provocar que nuestro cálculo sea globalmente unas 2 a 5 veces más lento de lo esperado (!!).

Como solución podemos hacer que estos cálculos en ráfaga procesen a velocidad nominal (elevada) si los mantenemos próximos en el tiempo, ya que estas unidades FPU AVX de 256 bit mantienen su velocidad de proceso durante unos 3 000 000 de ciclos (equivalentes a unos 600 micro segundos en una CPU a 4.4 GHz), después de los cuales retornan al estado de reposo y bajo rendimiento.

Otra solución consistiría en ir lanzando “de vez en cuando” algunas instrucciones AVX 256 bit para “despertar” las unidades FPU momentos antes (unos 60000 ciclos) de que lleguemos a ejecutar nuestro importante código AVX 256 bit.

Echad un vistazo a la web de mi nueva empresa, un proyecto de gran envergadura que llevo preparando hace más de un año.

Os lo recomiendo para diseño de sistemas de altas prestaciones:

ip16_texto_300px_blanco[4][2][2][2]

Allí tenéis a vuestra disposición el formulario de contacto, para consultas sobre este artículo hacedlo más abajo en la sección de comentarios.

Y mi nuevo Blog de contenido muy técnico y actualizado donde encontraréis artículos míos sobre hardware, procesadores y sistemas y también otros posts de expertos programadores e informáticos sobre otros temas de actualidad:

infromaticapremium-blog[4][2][2][2]

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

BIOS y ahorro de energía memoria en DDR3 o DDR4 – LowLevelHardware

Si somos usuarios de un sistema con una placa base de gama media o gama alta tendremos a nuestra disposición cientos de ajustes en BIOS para optimizar nuestra máquina.

20151130_085658Ajustes manuales DDR3.

Estos ajustes finos ciertamente pueden marcar la diferencia y hacer que nuestro sistema sea muy superior en todos los aspectos a uno configurado con los mismos componentes por defecto:

  • Rendimiento y velocidad de proceso muy superior (más del 50%).
  • Temperaturas mucho más controladas en cada componente.
  • Menor nivel de ruido de refrigeración.
  • Consumo total de la máquina muy reducido (en ocasiones en cientos de watt).

Sería fácilmente cuestión de cientos de artículos y cientos de miles de palabras detallar estos ajustes y todas sus posibles combinaciones en función del hardware específico, requiere un minucioso estudio de los whitepapers de cada procesador, chipset, placa base e implementación específica de cada BIOS.

En este artículo me referiré a una máquina con un procesador Core i7 3770K hand picked (seleccionado entre decenas de samples) configurada a 4.4 GHz a un voltaje muy reducido de solo 0.020 V superior al nominal mediante offset y con estabilidad absoluta con estos ajustes.

DRAM Power Management and Initialization

Aquí dejo enlaces a los Datasheet PDF relativos a:

La tercera generación Intel Core, Ivy Bridge 22 nm. (parte 1, parte 2).

La cuarta generación Intel Core, Haswell 22 nm. (parte 1, parte 2).

La quinta generación Intel Core, Broadwell 14 nm. (parte 1, parte 2).

La sexta generación Intel Core, Skylake 14 nm. (parte 1, parte 2).

En la sección 4.3.2 del manual en PDF 3rd-gen-core-desktop-vol-1-datasheet.pdf se detallan los ajustes que nos interesan relativos a la gestión de energía de las controladoras de memoria del procesador y de los módulos DDR3.

DRAM_Power_Management_and_Initialization_01DRAM Power Management and Initialization

En síntesis, los ajustes posibles serían:

Deshabilitar totalmente la gestión de energía para obtener las máximas prestaciones (opción 1 de la captura inferior).

Buscar un compromiso óptimo entre prestaciones y consumo (APD – PPD, opción 5).

Ir al máximo ahorro energético, menor consumo y disipación térmica (opción 4).

DRAM_Power_Management_and_Initialization_02DIMM Power Down modes.

En todas las máquinas que diseño me decanto por el ajuste central, el punto 5, APD – PPD, el óptimo compromiso.

DDR3_APD-PPDEl modo APD – PPD ofrece el compromiso perfecto.

En el caso que nos ocupa se consiguen ahorrar 6W de consumo en reposo (idle) y en uso normal (internet, compresión de datos, …) se mantiene en valores similares.

Es importante configurar el siguiente ajuste:

DDR3_Fast_ExitDDR DIMM Fast Exit Mode proporciona ahorro de energía con baja latencia de salida.

Con el ajuste de ahorro de energía deshabilitado no se consigue más velocidad de proceso ni mejores tiempos de cálculo en coma flotante o compresión de datos… pese a lo que sea lógico pensar.

Por ejemplo en WinRAR 5.21 x64, las velocidades y consumos son los siguientes:

Ajuste APD – PPD. Consumo de 94 a 109W y velocidad máxima 10459 KB/s.

Ajuste disabled. Consumo de 98 a 112 W y velocidad máxima 10467 KB/s.

Como podéis ver, no hay cambios significativos en la velocidad de compresión de datos y en cambio se ahorran 3 – 4 W en este test intensivo de memoria.

WinRARWinRAR en modo APD – PPD.

Como antes he señalado, en modo de reposo en el escritorio de Windows, se consiguen 6 W de bajada de consumo en el enchufe para un total de 48W (con 16 GB DDR3 2133 y el ajuste @ 4.4 GHz, SSD Samsung Evo 850 250 GB, disco duro 4 TB WD Caviar Black, tarjeta gráfica AMD 260X GCN 2 GB, tarjeta de sonido SB X-Fi y unidad óptica) desde los 54W con el ahorro de energía de la memoria DDR deshabilitado.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Memoria G.Skill DDR4 4133 – LowLevelHardware

G.Skill ha lanzado al mercado módulos DDR4 de 8 GB @ 4.133 GHz y 1.40 V para los procesadores Core i7 de sexta generación Skylake de 14 nm, los Core i7 6700K.

Core_i7_6700K_4GHzCore i7 Skylake 14 nm 6700K funcionando a 4.2 GHz.

Los roadmap oficiales JEDEC para DDR4 ya apuntaban desde los inicios del standard a velocidades máximas nominales de 4.266 GHz, del mismo modo que en su día, al lanzar en sus inicios la DDR3 se habló de 1.6 GHz y posteriormente 2.133 GHz.

A día de hoy, módulos de este tipo son de una utilidad limitada por sus pésimos timings, llevados al límite para lograr estabilidad a frecuencias superiores a los 4 GHz:

GSkill_DDR4_4133_8GB_Timnings_640Memory timings de G.Skill DDR4 4133.

Como vemos a 3.6 GHz todavía conserva buenos timings de 16 16 16 36 2N pero al llegar a 3.866 GHz y 4.0 GHz se degradan mucho hasta los 18 22 22 42 2N y 19 21 21 41 2N respectivamente.

GSkill_DDR4_4133_8GB_XMPPerfiles XMP del módulo 8 GB DDR4 G.Skill 4.133 GHz.

Lo notable es el voltaje de solo 1.35 V, que no es elevado pensando en las altísimas frecuencias.

En el ajuste de 4.133 GHz necesitan ya un voltaje de 1.40 V y empeoran las latencias hasta 19 25 25 45 2N… simplemente para “homologar” que llegan a esa frecuencia para un ancho de banda por canal de 33.064 GB/s (66.128 GB/s en dual channel).

GSkill_DDR4_4133_8GB_TimingsA 4.133 GHz se degradan en gran manera los timings.

Seguramente yo me quedaría con el ajuste a 3.6 GHz a 16 16 16 36 2N @ 1.35 V en dual channel por su baja latencia. Este ajuste daría un ancho de banda de 28.8 GB/s por canal para un total de 57.6 GB/s, ¡¡simplemente brutal!!

GSkill_DDR4_4133_8GB_640[3]

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

AMD Excavator 28 nm – LowLevelHardware

Ya a finales de 2015, AMD nos trae la cuarta y última iteración de su arquitectura Bulldozer inicialmente lanzada en el nodo 32 nm HKMG de Global Foundries.

Carrizo coresDos módulos AMD Excavator (cada uno con 2 INT cores) con 2 cachés L2 de 1MB.

Tras eliminar numerosos bugs, activar unidades deshabilitadas en Bulldozer (generación 1) como la IDIV y reducir paulatinamente el consumo con Piledriver 32 nm (generación 2) y Steamroller 28 nm (generación 3) además de ir lentamente aumentando el IPC, llega Excavator 28 nm con mejoras incrementales en muchos aspectos y también alguna pequeña revolución.

Excavator. los cambios más importantes respecto a las generaciones anteriores:

  • Reducción de la caché L2 de 2 MB a 1 MB por módulo con una importante reducción de área y mejorando la latencia. 2 MB L2 era demasiado para este tipo de cores fabricados en 28 nm, un mal compromiso área / prestaciones.

CarrizoL1d_32KB_8víasAMD Excavator L1d: 32 KB 8 vías.

  • Por fin se dobla el tamaño de la caché L1d de 16 KB a 32 KB por INT core y su asociatividad aumenta hasta las 8 vías. Por fin AMD ha visto la luz en cuanto al diseño de la caché L1… 32 KB con 8 vías es un excelente diseño. Era una mejora muy necesaria.

Kaveri 2 Clusters 2xL2Dos módulos AMD Steamroller (cada uno con 2 INT cores) con 2 cachés L2 de 2 MB.

Desgraciadamente, AMD no puede fabricar actualmente en nodos de 20 / 22 nm ni en los nuevos nodos de 14 nm (como su rival Intel) con el fin de reducir el área de sus productos y con ello su coste de fabricación.

Solución de los ingenieros de AMD: seguir en los 28 nm pero reduciendo el área (superficie) de sus chips implementando librerías de alta densidad procedentes del mundo del diseño de GPUs:

LibreríaAltaDensidad640Con el uso de librerías de alta densidad AMD logra reducir el área de Excavator.

Gracias a estas mejoras se cifra en un 30% la reducción de superficie.

A todas estas nuevas técnicas se añaden las mejoras importantes que Steamroller 28 nm ya introdujo respecto a sus antecesores de 32 nm, Piledriver y Bulldozer:

  • La L1i compartida para los 2 INT cores aumentó a los 96 KB y una asociatividad de 3 vías (representó un gran avance sobre los 64 KB / 2 vías, aunque 3 vías sigue siendo poco, muy poco para dos threads).
  • El decoding doble por módulo, uno para cada INT core, un cambio que esta microarquitectura (Bulldozer) pedía a gritos…

Excavator y el segmento de 15 watt:

Hay que tener claro que AMD busca reducir el consumo y disipación térmica de sus SOCs por todos los medios posibles y por ello ha optimizado críticamente Excavator y su primera implementación comercial, las APU Carrizo con 4 INT cores y 8 clústeres GCN 2 (Radeon R7).

Por ello ha optimizado el conjunto de 4 INT cores + 8 clústeres GCN 2 + controladoras DDR3 y resto de circuitería para un TDP de 15 watt, que se extenderá fácilmente a los 35 watt.

Carrizo15_640AMD Excavator: excepcional rendimiento en 15 watt. Con 35 watt menor ventaja.

Esto significa que cuanto mayor frecuencia le pidamos a Excavator, menor ventaja mostrará respecto a sus antecesores. No esperéis diseños de Carrizo de 100 watt a frecuencias de 4 GHz o más.

Las frecuencias iniciales rondarán a 35 watt los 2.1 GHz con Turbo hasta 3.4 GHz con los cores gráficos a 800 MHz y soporte de DDR3 2133 en el modelo tope de gama, el FX-8800P.

Frecuencias640

No está nada mal para 35 watt, un excelente resultado.

Conclusiones

AMD prepara el desembargo de Zen 14 nm, seguro que no sin numerosos problemas. Recordemos que va a utilizar el nodo de 14 nm de Samsung (ya fabrica los SOCs de los Galaxy S6 con esta tecnología) y no estará exento de dificultades el diseñar un chip tan complejo como Zen en un nodo y proceso de fabricación tan sumamente diferente de los actuales.

El puente hacia Zen son los chips con cores Excavator y AMD ha demostrado que ve claras las necesidades del mercado con su enfoque en el segmento de los 15 watt.

Excavator parece que dará mucha guerra en el segmento de los UltraBooks, será un chip muy equilibrado en TDPs de 15 a 35 watt, en este sentido, incluso creo que puede ser un gran rival respecto a los Core i5 de la serie U.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

AMD Steamroller core. AMD Kaveri. Parte 2 – LowLevelHardware

La primera implementación comercial de los cores Steamroller 28 nm es en las nuevas APU Kaveri, formadas por 2 clústers de 2 INT cores y una FPU y dos cachés L2 de 2 MB junto con la GPU integrada basada en la última generación de gráficas Radeon GCN 2.0.

Kaveri28nmDie de AMD Kaveri 28nm. En naranja la GPU Radeon R7.

El proceso de fabricación de 28 nm SHP de Global Foundries

AMD ha dado un paso decidido que marca una nueva etapa para la compañía: deja los procesos de fabricación orientados solamente a altísimas frecuencias (superiores a los 4 GHz) y opta por el contrario por procesos Bulk dirigidos a menor consumo, menor área con una penalización en frecuencia máxima.

Es decir, un procesador fabricado en el nuevo nodo de 28 nm SHP presenta mayor densidad de transistores por mm2, menor coste de fabricación, menor consumo a una frecuencia dada (por ejemplo en el rango hasta los 4 GHz aprox.) a costa de frecuencias pico inferiores.

A mi modo de ver una sabia y completamente acertada decisión, ya que, anteriormente, AMD no podía desplegar el potencial verdadero de frecuencia de la microarquitectura Bulldozer debido a su excesivo consumo al ir subiendo la frecuencia de funcionamiento con el necesario aumento exponencial de voltaje.

Es de esperar por ello, que desde ahora AMD se dedique a integrar más funcionalidades en cada uno de sus chips (más cores, más potencia de GPU…) ya que tiene un nuevo margen de disipación térmica máxima o TDP.

El core Steamroller

EN la tercera iteración de la familia de cores 15h, microarquitectura Bulldozer para los amigos, AMD ha hecho cambios realmente importantes respecto a la primera y segunda generación.

Steamroller Compute UnitUn cluster de arquitectura Steamroller: 2 INT cores, 1 FPU y 2 MB de L2.

Steamroller Cluster 640Fotografía de un clúster Steamroller perteneciente a un die AMD Kaveri 28nm.

EN AMD Kaveri se integran dos Clústers completos para un total de 4 INT cores:

Kaveri 2 Clusters 2xL2AMD Kaveri: Dos clústers Steamroller 28nm con sus cachés L2 enfrentadas.

En el siguiente artículo me centraré en las mejoras, muy extensas, introducidas por AMD en Steamroller.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

AMD Steamroller. Introducción. – LowLevelHardware

El 14 de Enero AMD sacó al mercado su tercera iteración de la micro arquitectura Bulldozer en la forma de la APU Kaveri fabricada por Global Foundries es el nodo Bulk SHP (Super High Performance) de 28 nm. En este caso se trata de una implementación de dos módulos con dos INT cores y una FPU compartida junto con una excelente GPU GCN 1.1 de 512 SPs.

excavator

La micro arquitectura AMD Bulldozer

Primero fue Bulldozer 32 nm HKMG, después Piledriver 32 nm HKMG y ahora Steamroller 28 nm Bulk SHP. Posteriormente, 2015, está previsto Excavator, la evolución final y que pondrá término a esta micro arquitectura. Después preveo que AMD, por fin, se centrará en diseñar cores de alto IPC y menor consumo para competir con mayor igualdad con los cores contemporáneos de Intel.

Como muchas veces ha sucedido con los diseños de AMD, en su primera versión.

En este caso Bulldozer 32 nm HKMG (AMD FX 8150) las prestaciones, consumo y disipación térmica no fueron las esperadas.

Piledriver 32 nm HKMG (AMD FX 8350) alivió ligeramente los problemas de consumo y mejoró las prestaciones.

Con Steamroller AMD plantea un cambio mucho más profundo:

  • Una evolución de la micro arquitectura mayor que en el caso de Bulldozer a Piledriver, con claras mejoras en algunos campos y otros cambios no tan claros en otros aspectos.
  • Un nuevo nodo de fabricación: del ya antiguo nodo premium HKMG 32 nm de Global Foundries utilizado en Bulldozer y Piledriver se pasa al nodo de 28 nm Bulk SHP, más orientado a menor consumo y mayor densidad (más transistores por mm2), es decir menor coste por chip y menor TDP, es decir, mayor performance per watt.

module-block

En la segunda parte de esta serie de artículos detallaré las mejoras implementadas en Steamroller por AMD y lo que significan de cara a sus encarnaciones presentes:

La APU Kaveri y los futuros chips FX Steamroller de alto rendimiento del que parece que están preparando una versión con 8 módulos y 16 INT cores con controladoras PCIex 3.0 integradas en el die del chip (lo que permitiría deshacerse del  North Bridge del chipset) que probablemente funcionará a frecuencias conservadoras en carga full threaded aunque con agresivos modos Turbo.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Intel Silvermont 22nm. Micro arquitectura. Etapas de Fetching – LowLevelHardware

En un artículo de ProfessionalSAT he hecho una introducción al nuevo procesador Atom Silvermont de 22 nm de Intel. Recomiendo la lectura de ese texto para estar familiarizado con algunos de los conceptos que son utilizados en el presente.

El mayor cambio en Silvermont respecto a los anteriores cores de la familia Atom es el cambio al procesamiento Out of Order (OoO) desde el primitivo concepto de ejecución In Order.

Ahora voy a describir, paso a paso, el pipeline de ejecución de Silvermont y las mejoras que aporta respecto a los antiguos cores (Bonnell 45 nm, Saltwell 32 nm).

Mejoras en las etapas de Fetch

Las etapas de fetching o carga de instrucciones son las primeras del pipeline de ejecución de cualquier procesador.

En Silvermont se ha llevado a cabo un rediseño profundo encaminado a alimentar adecuadamente de instrucciones a la nueva maquinaria de procesamiento out of Order.

Silvertmont_FetchFetch en Atom Silvermont 22 nm.

La predicción de saltos o Branch Prediction ha sido totalmente reconstruida de un modo distinto a los antiguos Atom. Se ha dividido en dos componentes independientes que actúan cada uno por separado y están situados en diferentes etapas del pipeline de procesamiento.

El primer componente es el Predictor de Fetching (Fetch Predictor). Es un Branch Target Buffer, un predictor de baja latencia y con una precisión elevada pero no extrema.

La unidad de Fetching carga cada ciclo 16 bytes de instrucciones desde la caché L1i con ayuda del L1 iTLB en los 6 Prefecth Buffers. Estos buffers aíslan las etapas de fetch de las posteriores etapas de decodificación X86 y así puede adelantarse a estas en el stream de instrucciones.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.

Electromigración en microprocesadores – LowLevelHardware

Todos los componentes, tanto los mecánicos como los electrónicos, están sometidos a un desgaste por el uso y en este grupo incluyo a los microprocesadores, cachés y chips de memoria DRAM y Flash.

Bild5Microfotografía: creación de un cruce entre dos conductores por electromigración.

En un nuevo artículo en ProfessionalSAT profundizo en la relación temperatura – degradación física de semiconductores:

Temperatura y degradación física en semiconductores –ProfessionalSAT

Recientemente he sufrido personalmente los efectos de la electromigración en varios de mis sistemas junto con otros de mis clientes, todos ellos de una antigüedad similar. En este caso, la degradación y posterior avería se ha producido en la memoria DDR3 de algunos de mis Sistemas de Altas Prestaciones basados en CPUs Core i7 de la serie 900.

Por ejemplo, un disco duro se degrada día a día durante su utilización normal y conforme pasan los meses podemos seguir la variación de sus parámetros de funcionamiento mediante la tecnología SMART que nos informa crípticamente del estado de salud del dispositivo. (Prometo un artículo sobre SMART cuando tenga tiempo…)

Electromigración

En dispositivos altamente miniaturizados como una CPU / GPU o un chip DRAM DDR3 o GDDR5 (memoria actual de las GPUs) se da una degradación constante de sus características eléctricas. La electromigración es el proceso causante de la mayoría de fallos en este tipo de dispositivos.

1153426521

La electromigración consiste en el arrastre y transporte de los átomos metálicos del conductor por el constante flujo de alta intensidad de electrones que lo atraviesa.

Se da una transferencia de momento (cantidad de movimiento) del electrón al núcleo metálico (literalmente lo golpean mayoritariamente en una dirección y sentido) y el núcleo va avanzando paso a paso en el sentido de la corriente creando dos tipos de anomalías:

Huecos: hay zonas que literalmente se vacían de metal, incrementando la resistencia del conductor y eventualmente provocando un fallo total del dispositivo por corte de corriente.

Void_formationFormación de huecos por electromigración.

576804216Este hueco ha causado un fallo total en el dispositivo al interrumpir la corriente.

Acumulaciones: en otras zonas, el material metálico se agrega y crea áreas de mayor contenido metálico, se incrementa la sección del conductor y puede llegar a crear puentes de conducción con líneas adyacentes llevando también al fallo del dispositivo.

atwu-2Puente metálico entre dos conductores creando un corto circuito.

En casos extremos la creación de acumulaciones puede llegar a fracturar el aislante y crear corto circuitos con zonas vecinas.

Factores que influyen en el proceso de electromigración

Favorecen la electromigración:

Las altas temperaturas. Se produce un incremento en la resistencia eléctrica del conductor metálico y aumentan las vibraciones atómicas de los núcleos metálicos.

Consultar: Temperatura y degradación física en semiconductores –ProfessionalSAT

Las corrientes elevadas (altas intensidades). A mayor flujo electrónico, mayor transferencia de momento de los electrones a los átomos metálicos de cobre o aluminio.

La poca sección de los conductores. A menor sección mayor densidad de corriente y más electromigración. En microprocesadores contemporáneos, de 32 nm (o 28 y 22nm), está claro que este factor es importante.

Minimizar los efectos de la electromigración

Está claro que debemos hacer lo posible para eludir los catastróficos efectos de la electromigración:

PIC03263

Debemos reducir la temperatura de funcionamiento de nuestros procesadores y memorias DRAM al mínimo posible:

Mediante el uso de los mejores sistemas de refrigeración disponibles.

El uso de una pasta térmica adecuada a la superficie del radiador de CPU (según la rugosidad de la base).

DSCF2366Un detallado estudio del flujo de aire es necesario en ciertos sistemas.

Y el exhaustivo estudio de la circulación del aire en la torre y la optimización de las presiones y flujos de aire.

PIC03259Uno de mis Sistemas de Altas Prestaciones con 6 DIMM DDR3 refrigerados por dos Noctua.

En el caso de los módulos DIMM de memoria DRAM DDR3 o la memoria GDDR5 presente en las GPUs actuales, lo único que podemos hacer es garantizar sobre ellas el mayor flujo de aire posible y a una temperatura adecuada. (Fotografía superior).

EMDaños en un conductor por electromigración.

Es importante mantener el voltaje de alimentación del dispositivo en el mínimo posible que garantice la estabilidad del sistema y la exactitud total en nuestros cálculos o procesos.

A ser posible es recomendable escoger manualmente los procesadores y los módulos de memoria (hand picking) seleccionando los que posean las mejores características eléctricas (menor voltaje de funcionamiento a la frecuencia deseada u objetivo).

EM1Proceso de electromigración, creación de un hueco.

En mis Sistemas de Altas Prestaciones sigo todas estas directrices a rajatabla y aún así no me he librado de los efectos de la electromigración como podéis observar en mi artículo de ProfessionalSAT.

Echad un vistazo a la web de mi nueva empresa, un proyecto de gran envergadura que llevo preparando hace más de un año.

Os lo recomiendo para diseño de sistemas de altas prestaciones con exquisito cuidado en las temperaturas de los componentes y siempre con los menores voltajes posibles para garantizar la mejor durabilidad y rendimiento:

ip16_texto_300px_blanco[4][2][2][2]

Allí tenéis a vuestra disposición el formulario de contacto, para consultas sobre este artículo hacedlo más abajo en la sección de comentarios.

Y mi nuevo Blog de contenido muy técnico y actualizado donde encontraréis artículos míos sobre hardware, procesadores y sistemas y también otros posts de expertos programadores e informáticos sobre otros temas de actualidad:

infromaticapremium-blog[4][2][2][2]

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes. Gracias de antemano.

El que tenga dudas o aportaciones tiene para ello la sección de comentarios, intentaré responder a todos y con la máxima claridad. Los Blogs deben de ser lugares de intercambio y agradezco vuestro feedback.