jueves, 2 de febrero de 2017

Athlon II X4, IBM Power 7 e Intel Nehalem EX – LowLevelHardware

Desde hace ya unos años los fabricantes de semiconductores están dando un giro copernicano a su estrategia de prestaciones a toda costa a cambio de una moderación clara en la disipación térmica de sus diseños.

AMD Athlon X4

Ya en un artículo anterior de Junio 2009 hablé ligeramente sobre estos nuevos procesadores de AMD. Su comercialización está prevista para Septiembre.

PhenomII_NO_L3AMD Athlon X4 de 45 nm. Cuatro núcleos con 512 KB de L2 cada uno.

AMD ha decidido reducir costes eliminando la caché L3 de 6 MB de los Phenom II X4 y prescinde además de tres de los enlaces HT (HyperTransport) quedando uno para comunicación con el chipset. La superficie estimada para este procesador ronda los 160 – 170 mm2 proporcionando una gran reducción de costes respecto a Phenom II.

Los precios serán muy reducidos y habrá variantes Triple core con uno  de los procesadores desactivado:

Gama de procesadores Athlon II X2, X3 y X4.

Se rumorean precios inferiores en unos 25€ al quad más barato de Intel. inicialmente su frecuencia máxima será de 2.6 GHz, pero sin duda será sencillo dejarlos sobre los 3.8 GHz con un trivial overclock.

La era del performance per watt

Intel, con su “right hand turn”, acabó con su microarquitectura Netburst (la línea Pentium 4) cancelando el procesador Tejas de 90 – 65 nm (el cuarto integrante de la saga) y dando paso a la exitosa (y derivada de la anterior microarquitectura Pentium III) línea Core 2 Conroe 65 nm y Penryn 45 nm.

Ahora es IBM quien adopta esta línea de moderación en consumo huyendo de sus anteriores speed demons (IBM Power 6). Power 7 será un diseño mucho más equilibrado, con ocho cores en un die y con la novedad de utilizar eDRAM para el último nivel de caché (con el doble de densidad por mm2).

Power6 IBM Power6, un masivo dual core con un consumo eléctrico desmesurado y casi 5 GHz.

Probablemente contará con 24 MB de eDRAM para los ocho procesadores con SMT de dos o quizás cuatro vías (para un total de 16 o 32 threads por chip). El ancho de banda por socket excederá los 300 GB/s de Power6 (ya de por sí todo un record).

Personalmente espero un rendimiento sobresaliente para estos procesadores (no como en su día para el Power6, que no me gustó nada cuando en su día su microarquitectura fue hecha pública) que a mi juicio retoman una línea de trabajo más lógica para IBM, ya que el mundo x86 está presionando fuertemente.

Intel Nehalem EX

El rival del anteriormente mencionado IBM Power7 será un procesador de ocho cores con SMT de dos vías para 16 threads por chip. Contará con 24 MB de L3 compartida y cachés L2 de 256 KB para cada core.

Se alojará en el nuevo socket 1566 LGA. Ya hablé de este procesador en un artículo anterior.

Image1 Intel Nehalem EX.

Con 2.3 BT (2.300.000.000 transistores) fabricados en el nodo de 45 nm cuenta con ocho núcleos basados en la arquitectura Nehalem (similar a los Core i7 de sobremesa) y cuatro enlaces QPI para comunicación con otros tres sockets y el chipset.

Image2 Diagrama del die.

Los tamaños de caché. La L3 de 24 MB

Una cuestión interesante es la inclusión de una L3 de 24 MB con acceso compartido por ocho núcleos. Teniendo en cuenta que las L2 son de solo 256 KB sus tasas de acierto no serán espectaculares y esto nos lleva a pensar que la L3 tendrá mucho trabajo.

Hace unos meses haciendo profiling comparativo en máquinas Core 2 y Athlon64 comprobé que los Core 2 fuerzan mucho más (en el sentido de acceder muchas más veces) su L2 de 6 MB que los AMD Athlon64. Esto es debido a que los Athlon64 cuentan con una L1 de 64 KB que mitiga mucho (dada su mayor tasa de aciertos) los accesos a L2, en cambio, los Core 2 con su pequeña L1 de 32 KB hacen un uso intensivo de su excelente (rapidísima para su tamaño) y gigantesca L2 de 6 MB.

Sin duda, con Beckton (Nehalem EX) el extenso equipo de ingeniería de Intel ha hecho un excelente trabajo en la identificación de los más favorables tamaños relativos de sus cachés y han llegado al diseño final de 24 MB de L3 (LLC) para 8 cores con 16 threads.

Caché de cuarto nivel, L4

Lo que sí es cierto es que espero, en generaciones posteriores y ya con un número de núcleos mayor, la aparición de masivas cachés L4 compartidas (de tamaños sobre los 48 - 64 MB) probablemente con buses ring-bus.

Para mitigar los accesos hacia ellas habrá cachés L3 compartidas parciales (entre unos 4 – 8 núcleos por L3) de menor tamaño (sobre 4 – 8 MB) y mejor latencia que las actuales L3 de Beckton.

Por supuesto, todo esto nos espera en los 22nm y más allá …