jueves 18 de junio de 2009

LGA 1156. Intel Core i3, Core i5 y Core i7 – LowLevelHardware

Intel ha desvelado sus planes finales para los sustitutos de sus exitosas líneas Core 2 Duo y Quad, todos ellos serán procesadores de socket LGA 1156 con dos canales de memoria DDR3 y con conexión con el nuevo chipset Intel P55 mediante un simple enlace DMI de 2 – 4 GB/s.

Todos ellos estarán basados en la arquitectura Nehalem ya conocida en los actuales Core i7 LGA 1366. En cuanto a la caché L3, los quad core contarán con 8 MB de L3 y los dual core con la mitad, 4 MB.

Tech_IntelTechnology@Intel

Core i7 LGA 1366 serie 900

La actual serie 900 que todos conocemos con triple canal DDR3 y bus QPI para comunicación con el Intel X58. Seguirá manteniendo el liderato en prestaciones y el mayor precio.

Core i7 LGA 1156 serie 800

i7 Los actuales procesadores Core i7 de socket LGA 1366 quedan como gama alta (serie 900) y se lanzarán varios modelos para placas de socket 1156 y chipset P55 (serie 800) con doble canal DDR3.

Contarán con cuatro núcleos con HyperThreading y Turbo Mode para un total de ocho threads como en la actual gama 900.

Core i5 LGA 1156 serie 600

i5 Habrá modelos de dos y cuatro núcleos, los de dos núcleos contaran con HyperThreading (SMT) y en cambio los quad cores lo llevarán deshabilitado para diferenciarlos de los Core i7. Todos ellos contarán con Turbo Mode.

También como chipset con el Intel P55 mediante DMI.

Core i3 LGA 1156 serie 500

i3 Serán idénticos a los i5 pero con Turbo Mode deshabilitado y seguramente frecuencias inferiores. Igualmente con el Intel P55.

miércoles 3 de junio de 2009

Phenom II X2, Athlon II X2 y el futuro Athlon II X4. Nuevos cores de AMD – LowLevelHardware

Advanced Micro Devices está ejecutando su roadmap admirablemente, de una manera que pocos esperaban teniendo en cuenta el gran éxito y presión ejercida por su rival y mayor fabricante mundial, Intel Corp.

AthlonIIAthlon II X2: el dual core nativo de 45 nm, codename: Regor.

En las últimas semanas AMD ha presentado tres nuevos diseños:

  • Un hexacore nativo con L3 de 6 MB: AMD Istambul
  • Un dual core nativo con dos L2 de 1 MB: AMD Regor o Athlon II X2
  • Un quad core nativo con cuatro L2 de 512 MB y sin L3: Athlon II X4

En un artículo anterior esbozaba las nuevas estrategias de futuro y la visión más técnica y práctica del nuevo CEO de AMD, Dirk Meyer, todo un profesional del diseño de procesadores.

PhenomII_NO_L3 Athlon II X4: Quad core nativo sin caché L3 y con un solo bus HT bidireccional, codename Propus.

Hablando de un futuro próximo, en breve tendremos en el mercado los nuevos Athlon II X4, de los que os presento arriba fotografía del die y donde observamos que carece de caché L3 y solo cuenta con un link HT. Además las cachés L2 son de 512KB como en Shanghai.

Y en presente… AMD, ya de lleno en el nodo de 45 nm, nos presenta hoy su nueva gama de procesadores dual core para el segmento medio del mercado, compuesta por dos series.

AMD core Regor - Athlon II X2 serie 200

Con este procesador AMD quiere sustituir todos los procesadores basados en los antiguos núcleos Athlon64 X2 Brisbane de 65 nm todavía en el mercado migrando toda la gama X2 a 45 nm y núcleos de arquitectura K10.5.

Sus prestaciones son claramente superiores a los anteriores núcleos K8 y K10 (los primeros Phenom Barcelona de 65 nm) y cuentan con una arquitectura de procesamiento actualizada e idéntica a los Phenom II X4 de 45 nm basados en el núcleo Shanghai.

Analizando el díe observamos algunas características notables:

  • Es un diseño dual core nativo, compacto y muy optimizado en superficie.
  • Se ha reducido notablemente el tamaño del Uncore respecto a Shanghai al no necesitar toda la lógica de gestión de la caché L3.
  • Cuenta con dos L2 discretas e independientes aumentadas a 1 MB y con 16 vías de asociatividad como en los Phenom, Phenom II y en los antiguos Athlon64.
  • Hay dos controladoras de DDR2/DDR3, como en Shanghai (Phenom II).
  • No hay caché L3 para optimizar su tamaño.
  • El número de enlaces HyperTransport se reduce a uno a una frecuencia de 2 GHz.
  • La superficie estimada ronda los 117 mm2 para 234M de transistores, un resultado muy satisfactorio.
  • Las frecuencias iniciales rondan los 3 GHz.

AthlonII_croquis Esquema del procesador Athlon II.

Su disipación térmica se reduce a un TDP máximo de 65W, siendo (ahora sí) una excelente opción para sistemas destinados a reproducción BluRay o DVD de salón.

En pruebas reales ha dado sobre unos 30 – 35 W en carga máxima (consumo aislado del procesador) y en reposo memos de 10W. Realmente podemos decir que es un procesador fácil de refrigerar.

AMD core Callisto - Phenom II X2 serie 500

El procesador Phenom II X2 no es un dual core nativo y por ello su disipación térmica es más elevada que en el caso del nuevo Athlon II, aunque no por ello es excesiva. En medidas reales ronda los 50 W en carga 100 % de los dos núcleos.

Shanghai Die de Shanghai quadcore de 45 nm y 6 MB de caché L3.

El Phenom II X2, igual que el Phenom II X3, comparten die con el “completo” Phenom II X4 quadcore. De hecho todos ellos son el mismo procesador, lo que ocurre es que AMD desactiva respectivamente dos o uno de los núcleos.

Esta inactivación de cores puede responder a dos razones:

  • Alguno de los núcleos no es funcional.
  • Por razones económicas o de stock (exceso de quads o falta de X2s) necesita producir mayor número de CPUs dual core.

El lado positivo es que el AMD Phenom II X2 goza de una caché L3 completa de 6 MB para tan solo dos núcleos (3 MB de L3 por procesador) lo que aumenta sus prestaciones de media sobre un 5 a 8 % sobre el Athlon II X2 clock for clock. En pico llega a ser hasta un 18 % más rápido.

Por contra, al ser un chip de 751M de transistores, su consumo y disipación térmica no pueden ser tan contenidos como en el caso del Athlon II X2 y se acerca incluso a sus parientes quadcore con un TDP de 80W. Siendo para AMD el TDP la potencia máxima teórica consumida por el procesador en carga máxima y en condiciones críticas de temperatura y alimentación eléctrica.

El tesoro oculto en Phenom II X2

Al ser un quadcore nativo con dos núcleos deshabilitados es posible, en ocasiones, volver a activar estos dos procesadores. Para ello necesitamos una placa base que tenga en BIOS la opción del ACC (Advanced Clock Calibration).

Al activar esta opción nos podemos encontrar con dos situaciones:

  • Tenemos un flamante quadcore con 6 MB de L3 perfectamente funcional a precio de dual core.
  • Alguno de los núcleos activados es defectuoso y obtendremos errores, cuelgues o incluso fallos en el arranque.

Ciertamente no hay otro modo de averiguarlo que probar… Sin duda que ahora que salen al mercado hay más probabilidades de que sean quad cores funcionales y conforme avance el proceso de fabricación iremos encontrando más CPUs con núcleos defectuosos.

jueves 28 de mayo de 2009

Nehalem-EX Beckton - LowLevelHardware

Ayer expiró la NDA referente a la publicación de las primeras imágenes, aunque de bajo detalle, del octal core nativo Nehalem-EX. En este artículo esbozo algunas peculiaridades y característica de este nuevo procesador que se comercializará a finales de año.

NHM-EX Nehalem-EX. Se aprecia su gran tamaño para el socket LGA-1566.

Que nadie se lleve a engaño pues jamás tendremos un procesador Beckton en nuestro sistema personal, está diseñado con otras cargas de trabajo en  mente e incorpora tecnologías RAS (novedad en el mundo X86) de la familia Itanium.

NehalemEX_Nehalem_Tukwilla_Dunnington La maestría de Intel diseñando procesadores para entorno empresarial.

En la captura superior apreciamos Nehalem-EX junto a Nehalem y debajo Tukwilla (Itanium quad core de 65 nm) y Dunnington (Xeon hexa core nativo con 16 MB L3 basado en núcleos Penryn de 45 nm).

Presentación Presentación de los nuevos Nehalem-EX octal core nativos.

Hace unos meses (en diciembre de 2008) realicé un análisis muy arriesgado, aunque iba bien encaminado, del die de Beckton basándome en las muy lejanas y de mala calidad fotografías de un wafer de procesadores que sostenía un orgulloso Patrick Gelsinger. y no era para menos.

[Gelsinger_Beckton3.jpg]

2.3 millones de transistores en 45 nm

Beckton constituye un procesador monstruoso, 2.3 millones de transistores para:

  • Ocho núcleos de arquitectura Nehalem con SMT de dos vías.
  • 24 MB de caché L3 distribuidos en bancos independientes.
  • 4 enlaces QPI.
  • 4 controladoras de memoria DDR3 asociadas a chips externos (SMB, Scalable Memory Buffer).

Image3 La grandeza de Beckton.

La elección de los arquitectos de procesadores de Intel de implementar una caché de tercer nivel de 24 MB ya posiciona de por sí el producto orientándolo hacia cargas de trabajo de servidor.

En Beckton 24 MB son 3 MB por núcleo (o 1.5 MB por thread), un paso adelante desde Nehalem con sus 2 MB por core. Bien es cierto que una caché de tal magnitud no puede tener unos tiempos de acceso fulgurantes, pero en entorno servidor esto es menos importante que acceder constantemente a memoria y más todavía a memoria no local.

Además, recordemos que la función del LLC (Last Level Cache), en este caso la L3, es también evitar tráfico de coherencia de cachés de niveles inferiores.

BECKTON_02 Los cuatro QPI permitirán sistemas de cuatro sockets totalmente conectados.

Análisis del die

die1 Die de Beckton, intencionadamente ocultado por los señores de Intel.

Como vemos, los núcleos han pasado a la periferia en grupos de dos colocados simétricamente respecto al centro del chip. Es una buena opción para evitar hot spots térmicos distribuyendo mejor la generación de calor en el procesador (como es sabido las cachés consumen comparativamente muchos menos W/cm2 que la lógica).

La superficie estimada ronda los 600 mm2, partiendo de los 246 mm2 del actual Nehalem quad core que encontramos en los procesadores Core i7.

Los núcleos serán prácticamente idénticos a los conocidos de Nehalem en los Core i7, con SMT de dos vías para un total de 16 threads por chip y por socket. Las cachés L1 y L2 serán respectivamente de 32 + 32 KB y 256 KB la L2 de baja latencia (exacto a Core i7).

En la parte superior de die encontramos los cuatro enlaces QPI para comunicación con otros procesadores y con el chipset o IO Hub.

En la parte inferior se sitúan las controladoras de memoria que se conectan a cuatro procesadores externos llamados SMB o Scalable Memory Buffer que permitirán hasta 16 (!!) DIMMs por socket.

Image2 Ubicación de los chips SMB.

En el centro encontramos la interfaz de sistema, el antiguamente llamado North Bridge, que incluye toda la lógica y buffers de comunicación con el exterior, en este caso habrá variaciones muy importantes respecto a Nehalem por las funcionalidades RAS añadidas para acceder a mercados hasta ahora reservados a procesadores Itanium o competidores RISC como IBM Power y otros.

cache1 Uno de los dos bloques de caché de 12 Mb, dividida en cuatro bancos de 3 MB.

Debo decir que han hecho un buen trabajo ocultando detalles en las fotografías… a juzgar por ellas todos los sub arrays de 3 MB (hay ocho de ellos) son morfológicamente idénticos. Veremos con el tiempo qué estructura interna ocultan, aunque en la fotografía inferior ya se aprecian más claramente y parecen bloques típicos de caché:

Beckton_Esquema_DieEsquema del die de Nehalem-EX.

En esta fotografía se aprecian mejor los ocho núcleos Nehalem y sobretodo los ocho arrays de caché L3 de 3 MB para un total de 24 MB. Nótese la gran cantidad de lógica adicional a lo largo del centro del die.

Intel podrá, en caso necesario desactivas independientemente núcleos defectuosos o arrays de L3 de 3 MB que presenten defectos funcionales.

Frecuencias esperadas de Nehalem-EX

Lógicamente, un octal core nativo compuesto de 2.9M de transistores, debe de ir limitado por TDP, lo que nos indica que inicialmente no veremos los 3 GHz. Lo esperable son frecuencias sobre los 2.13 – 2.26 GHz, quizás con los topes de gama a unos 2.66 GHz.

isscc_05[1] Proceso de Low Leakage especial para Dunnington, también aplicado a Beckton.

Intel, como era de esperar dada su maestría en estas lides, ha desarrollado un nuevo proceso de fabricación de 45 nm específico para Beckton con un Leakage menor, permitiendo frecuencias superiores que si se tratase simplemente de dos dies Nehalem en un chip más la lógica adicional y con 24 MB de L3.

quad_beckton Quad Nehalem-EX / Beckton en carga máxima. 64 threads (!!).

Estará disponible a finales de este año para servidores de alta gama, y especialmente utilizado en virtualización, además al incorporar características RAS dotará a estos entornos de una robustez añadida nunca vista en la arquitectura X86.

Image1 Capacidades RAS en Nehalem-EX.

Podrá no solo detectar sino aislar y corregir errores tanto de procesamiento como de memoria o I/O.