jueves, 2 de febrero de 2017

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware

Mucho se ha hablado en los últimos días de los resultados prestacionales aparecidos en internet de dos Engineering Samples del nuevo procesador AMD Bulldozer.

OrochiDie de Bulldozer con 4 módulos y 8 INT cores.

Los resultados han aparecido en OpenBenchmarking.org. Se trata de la versión para servidores (Opteron) de Bulldozer, en unas máquinas configuradas con 2 chips Magny Cours (MCM de dos dies de 8 INT cores cada una, total por chip: 16 INT cores) para un total de 32 INT cores:

http://openbenchmarking.org/s/AMD%20Eng%20Sample%20ZS182045TGG43_2

http://openbenchmarking.org/s/AMD%20Eng%20Sample%20ZS182045TGG43_28

obo-logo-header[1]

Debo expresar mis reservas sobre, no tanto la veracidad de los resultados, si no sobre la representatividad de estos datos. Por lo que se deriva del análisis de las puntuaciones en estos benchmarks, está claro que es un stepping muy temprano de Bulldozer, funcionando sobre placas base pre-release y con BIOS sin optimización alguna.

Los hechos que apuntan a estas conclusiones son,principalmente, el ínfimo rendimiento en algunos de los tests que afectan al subsistema de memoria.

Es muy posible que en estos procesadores haya algunas características clave desactivadas o deshabilitadas que degradan terriblemente el rendimiento. Algunos de las unidades previsiblemente desactivadas son los siguientes:

  1. El Probe Filter, encargado de reducir el tráfico de coherencia entre las cachés de cada die. Recordemos que en los sistemas de pruebas hay dos CPUs MCM (Multi Chip Module) para 4 dies en total (32 INT cores y 16 nódulos).
  2. El último nivel de los TLB.

Los resultados de Stream son tan bajos que claramente apuntan en esta dirección: unos meros 6 GB/s.

Un sistema equivalente actual de AMD con dos chips Magny Cours (MCM de dos dies de 6 cores. 12 cores en total por chip. 24 cores por sistema) supera los 27 GB/s en el mismo test.

Bullzorer_ModuleUno de los módulos de Bulldozer con 2 INT cores y sus cachés L2 2 MB y L3 2 MB.

Otras dudas que me asaltan sobre estos chips ES son las siguientes:

  1. ¿Estará activado o no el Turbo Mode? Yo personalmente abogo por que no. El variar la frecuencia de una CPU en funcionamiento no es precisamente un proceso sencillo. Exige mucha validación y tunning de BIOS así como de la parte eléctrica de la placa base y no suele estar disponible hasta los steppings finales.
  2. La frecuencia del uncore o North Bridge que comprende los cuatro bancos de 2 MB de caché L3 es desconocida y con seguridad muy inferior a la final.
  3. ¿Se hace uso de AVX en el código del conjunto de pruebas? Y si es es así, en qué modo.

Seguramente la frecuencia de 1.8 / 1.9 GHz apuntada en los resultados sea fija y no aumente los 500 MHz que AMD ha estipulado para el Turbo Mode en Bulldozer con carga full threaded.

Bullzorer_Module_CroquisDistribución de unidades en un módulo de Bulldozer.

Frecuencias probables de las versiones comerciales

Las frecuencias finales de los Opteron Interlagos (MCM de 2 dies de 8 INT cores en un chip) de 16 INT cores (8 nódulos) probablemente rondarán inicialmente los 2.4 – 2.8 GHz más los 500 MHz en carga gracias al Turbo.

En los diseños de sobremesa, el octal core (8 INT cores, 4 módulos) es razonable y deseable que al menos esté sobre los 3.0 – 3.4 GHz inicialmente. Me queda la duda sobre la frecuencia del North Bridge y los 4 bancos de L3 de 2 MB, lo lógico sería que no bajase de los 2.4 GHz.

Pequeño apunte, prestaciones

En proceso de enteros, Bulldozer parece ser un buen diseño multithread pero con graves limitaciones en código single threaded comparado con Sandy Bridge.

En coma flotante X87 o SSE no romperá records de velocidad en cálculo paralelo, aunque tendrá un excelente rendimiento single threaded.

La posición de Bulldozer en el mercado de CPUs dependerá principalmente de la frecuencia final del diseño. Si el octal core de sobremesa se queda en los 3.2 GHz (más los 500 MHz del Turbo) pasará serias dificultades frente a Sandy Bridge E (la versión para expertos de SB, prevista para Q4 de 2011).

Si se acerca a los 4 GHz podrá plantarle cara en igualdad de condiciones.

Conclusiones

Poco puedo sacar en claro de estos escasos datos inconexos y con un extrema falta de contexto. Es prácticamente desconocida la información sobre la configuración hardware y software y sobre las condiciones de las pruebas.

En mi opinión estos primeros resultados constituyen una guía y más bien un umbral mínimo en las prestaciones de los steppings comerciales de Bulldozer.

Una observación que me impresiona y sorprende al analizar los datos es que en algunos tests Interlagos mejora los resultados de Magny Cours hasta en un 28 % pero en otros obtiene una velocidad de solamente un 60% (normalizando Magny Cours al 100%).

Me recuerda a los benchmarks de los sistemas Pentium 4 comparados con los AMD Athlon o Pentium III… Esperemos que solo sea una desafortunada primera impresión… Aunque mis análisis micro arquitecturales de Bulldozer hasta la fecha apuntan en esta dirección.

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.