jueves, 2 de febrero de 2017

AMD Bulldozer. Frecuencias finales. Actualizado – LowLevelHardware

Actualización 07 Septiembre 2011: Últimas noticias referentes al lanzamiento de Bulldozer y algunos datos técnicos extra al final del artículo.

InterlagosMCMUno de los primeros MCM Interlagos compuesto de 2 dies Bulldozer de 8 INT cores.

En la web de Gigabyte hemos encontrado las especificaciones finales de los procesadores basado en núcleos Bulldozer que próximamente saldrán a la venta.

Bulldozer_FXAMD Bulldozer. Por fin datos reales sobre los steppings comerciales.

Concretamente, la página en cuestión es la siguiente, correspondiente al soporte de CPUs de la placa base de socket AM3+ GA 990 FXA UD7.

En ella obtenemos alguna información extra sobre las nuevas CPUs de 32 nm de la serie FX.

Entre otros datos encontramos un TDP máximo de 125 W y la denominación B2 para el primer stepping comercial.

Bus Hyper Transport de 5.2 GHz

Todos los modelos ajustan su reloj HT3 a  GT/s. Sinceramente no veo razón para ello dado el excesivo ancho de banda ya disponible a las frecuencias de Thuban (Phenom II X6), GHz.

Obviamente la razón de esta alta frecuencia de 5.2 GT/s es comercial, marketing puro.

Este bus, en los procesadores de sobremesa, se utiliza para comunicar con el chipset y con los componentes periféricos. No es necesario un ancho de banda tan alto.

La especificación HT3 hace mención de frecuencias máximas hasta los 6.4 GHz (igual que el QPI de Intel), AMD ha sido prudente y ha dejado un margen para mejoras futuras.

Frecuencias base de AMD Bulldozer

La versión de 8 cores y 4 módulos (serie FX-8000) llegará hasta los 3.6 GHz nominales, desde ahí desplegará los modos Turbo.

Como comenté en el artículo anterior, AMD ha dotado a Bulldozer de un Turbo de dos fases:

640_5

Fase 1, All Core Boost: Todos los módulos (conjuntos de dos cores con su SIMD FPU Unit y los 2 MB de L2) aumentan su frecuencia por encima de la nominal si el TDP y la temperatura lo permite.

Se da en cargas de trabajo que implique a TODOS los cores, sea con carga parcial elevada o máxima 100%.

Fase 2, Max Turbo Boost: Si dos de los módulos (cuatro INT cores, dos SIMD FPUs y dos L2 de 2 MB) se hallan en estado Sleep C6 (power gated) el resto (los otros dos módulos) pueden incrementar su frecuencia hasta en 1 GHz sobre la nominal.

Esta implementación conlleva algunas consideraciones prestacionales extrañas y fastidiosas que detallaré cuando tenga hardware funcional comercial en las manos.

Se rumorean modos Turbo de hasta 1 GHz extra, es decir, hasta 4.6 GHz en carga 100% de 2 módulos, con los otros dos módulos en estado gated CC6.

En este caso tendríamos la siguiente capacidad de proceso:

  • 4 INT cores a 4.6 GHz en carga de enteros (compresión de datos por ejemplo).
  • 2 FPUs AVX de 256 bit en cargas de coma flotante AVX a 4.6 GHz.
  • 2 FPUs dobles de 128 bit en cargas de coma flotante SSE o AVX de 128 bit a 4.6 GHz.

Más información en breve.

Actualización 07 Septiembre 2011:

En primer lugar: Frecuencia máxima en modo Turbo Core: el modelo tope de gama FX-8150 (se enpecual con un FX-8170 para Q1 2012) será de 4.2 GHz con carga parcial de cores, probablemente con un máximo de 4 cores al 100%. Lo que no está nada mal manteniendo un TDP de 125W.

En segundo lugar: Nuevo evento de AMD en San Francisco para el día 13 de Septiembre:

Hanging out in San Francisco the week of September 12th? Not finding anything interesting?
AMD to the rescue. We'll be making an historic announcement, and want you to be a part of it.

AMD invites you to join us for an entertaining evening on the beautiful Yerba Buena Terrace at the St. Regis San Francisco. Spend the evening exploring the latest AMD technology, mingling with AMD executives and technology partners, all while enjoying cocktails and hors d'oeuvres. Be sure to arrive before 7:00pm to hear our big news first hand.

  When: Tuesday, September 13, 2011 RSVP
  Where: St. Regis Hotel, Yerba Buena Terrace, San Francisco
  Time: 6pm - 9 pm PDT
  RVSP: by September 9, 2011 at fusionzone.eventbrite.com (password: AMD)
Contact Information:
Heather J Lennon
Sr. Manager Public Relations, AMD
Heather.Lennon@amd.com
 

13 de Septiembre ¿Será el día de lanzamiento de Bulldozer?

Por último: Hoy AMD ha confirmado el comienzo de la venta de CPUs Interlagos de 16 cores para servidores a los integradores de sistemas. El primer chip con micro arquitectura Bulldozer.

"This is a monumental moment for the industry as this first 'Bulldozer' core represents the beginning of unprecedented performance scaling for x86 CPUs," said Rick Bergman, senior vice president and general manager, AMD Products Group. "The flexible new 'Bulldozer' architecture will give Web and datacenter customers the scalability they need to handle emerging cloud and virtualization workloads."

Para más información acerca de Bulldozer:

En múltiples artículos he analizado en detalle el diseño interno de BD 32 nm. Cito los más destacables:

AMD Bulldozer- HotChips23 – LowLevelHardware

AMD Bulldozer. Perspectivas – LowLevelHardware

La L3 cache multibanco en AMD Bulldozer. Actualizado – LowLevelHardware

AMD AGLUs, Bulldozer INT cores. Actualizado – LowLevelHardware

AMD Bulldozer. Primeros benchmarks. Actualizado – LowLevelHardware

AMD Bulldozer – ProfessionalSAT

La micro arquitectura de AMD Bulldozer. Actualizado – LowLevelHardware

Novedades y expectativas 2010. Actualizado – LowLevelHardware

AMD Bulldozer. Prestaciones estimadas – LowLevelHardware

Micro arquitectura AMD Bulldozer 2011. Actualizado – LowLevelHardware

Previo AMD Bulldozer. Actualizado – LowLevelHardware

Si consideras útil el contenido de este Blog, ayuda a mantenerlo ojeando algunas de las ofertas que consideres interesantes de nuestros anunciantes.

17 comentarios:

  1. Hola.

    Antes que nada, te comento que me agrada mucho tu blog, gracias por el empeño que pones para mantenernos al tanto de arquitecturas.

    Tan solo algo me llama la atención, arriba mencionas que el alto ancho de banda del HT3 es solo por marketing ya que es para chipset y demás, pero... ¿no también es para comunicar la memoria del principal con el controlador integrado en el cpu?

    Ademas, el PCI-E y el USB están necesitando cada vez mas ancho de banda.

    Saludos

    ResponderEliminar
  2. Anónimo,

    Cuando hablo de razones de marketing quiero decir que no hay razón objetiva para un bus de 16 bit bidireccional (fll duplex) a 5.2 GT/s en un diseño de un socket, es decir, en placas base de sobremesa.

    El HT3 se utiliza en servidores multi socket para comunicación inter socket.

    En cambio, en sobremesa, su uso es comunicación chip a North Bridge y viceversa. No es necesario tal ancho de banda.

    Los anchos agragados de varios dispositivos SATA3 más USB3 junto con gráficas PCI-E no saturan tal bus.

    Un saludo y gracias por las felicitaciones,

    Carlos Yus.

    ResponderEliminar
  3. Así es, mas tarde cuando vi el anuncio de Interlagos, recordé que esos 5.2GT/s ademas de lo que mencioné son principalmente para la comunicación entre cpu's montados en la misma placa.

    AMD es una empresa "pobre" que no puede darse el lujo de dividir su linea de producción demasiado, por lo que imagino ese ancho de banda es pensado para Opteron y heredado a sistemas para el hogar.

    Ignoro la complejidad que requiera ese bus, pero si es mucha podría ser usada en un poco mas de caché o mejorar la asociatividad.

    Saludos.

    ResponderEliminar
  4. Concretando:

    Si no existiesen razones de marketing sería mejor dejar el bus, por ejemplo, a 3.2 GHz.

    Lograría un ancho de banda más que suficiente y podría utilizar un voltaje de operación netamente inferior y con ello ahorrar unos watt preciosos para el consumo global de chip que podrían ser utilizados para un Turbo Core más agresivo.

    Saludos,

    Carlos Yus-

    ResponderEliminar
  5. Aquí teneís lo del hotel:
    Bulldozer overclockeado a 8429 GHz,espectacular!
    http://www.brightsideofnews.com/news/2011/9/13/amd-trounces-intel-guinness-crowns-bulldozer-as-the-fastest-x86-cpu.aspx

    ResponderEliminar
  6. Es una excelente noticia que Bulldozer sea capaz de llegar en condiciones extremas hasta los 8.4 GHz, dice bastante del potencial del diseño del core y de su optimización para frecucuencias elevadas.

    La parte negativa es que los cores diseñados para altas velocidades de reloj suelen adolecer de bajos ratios IPC.

    En cualquier caso hay que ver a qué frecuencias finales AMD es capaz de comercializar Bulldozer, se comenta que inicialmente rondará los 3.6 GHz con modos Turbo Core hasta los 4.2 GHz y a lo largo de 2012 llegará hasta los 4 GHz con Turbos todavía más agresicos.

    Un saludo,

    Carlos Yus.

    ResponderEliminar
  7. me invade la curiosidad los AMD Interlagos cuentan con eso de quad channel para la memoria, y creo que Intel tiene un prototipo que hara uso de quad channel podrias explicar en que consiste, te lo agradeceria muchisimo

    ResponderEliminar
  8. Hola a "Lowlevelhardware". Interesante Blog. Estoy deambulando hace tiempo ya por aquí y recién me he decidido a hacer algún comentario. No soy instruido en el tema, pero en el transcurso del tiempo he logrado armar PCs LGA 1156 con i7 875k y AM3+ con Phenom II x6 1090T. Mi pregunta es la siguiente: 1)¿Por qué del TDP del FX 8120 (125W y 95W)?; 2)En este mismo caso, ¿Cuál sería más estable y por qué?; 3)¿Cuál es la razón aparente de que se fabriquen dos modelos con las mismas características (¿tendrá algo que ver el OC?).
    De antemano muchas gracias y felicidades por este sitio, ya que lo encuentro muy instructivo.
    Saludos a todos

    ResponderEliminar
  9. Y bueno ya ha salido a la luz los nuevos procesadores de AMD en apariencia se ve una decepcion generalizada. excesivo tamaño de caché L2 y altas latencias de L2 y L3
    caché L1 pequeña al parecer.
    Alto consumo de CPU en modo ocioso.

    Que opinion te merece esta nueva arquitectura ya puesta a prueba?? Que detalles se pueden mejorar?

    ResponderEliminar
  10. Bueno,decepción relativa (se queda entre el 2500K y el 2600K)
    http://www.kitguru.net/components/cpu/zardon/amd-fx-8150-black-edition-8-core-review-with-gigabyte-990fxa-ud7/30/
    Tened en cuenta que el 99% de las reviews se enfocan exclusivamente para gamers...
    Yo aprecio mejoras importantes en compresión de archivos,microsoft Excell,CS5-no me convence el cosumo (seguro que es mejorable por BIOS etc...),pero pienso que en el mercado de los Servers sí que puede triunfar,estamos hablando de un octa(¿?)core...

    ResponderEliminar
  11. Sigo....Con una ASUS M4A89GTD PRO/USB3 no lo hace tan mal(consumo,sobre todo Full)frente a los SB:

    http://www.neoseeker.com/Articles/Hardware/Reviews/amd_fx-8150/4.html

    Me parece increible que un mismo benchmarck dé
    valores distintos según la web que lo publica:
    http://www.techspot.com/review/452-amd-bulldozer-fx-cpus/page7.html

    http://benchmarkreviews.com/index.php?option=com_content&task=view&id=831&Itemid=63&limit=1&limitstart=10
    SPECviewperf 11.0 MAYA!!!

    ResponderEliminar
  12. Gaston,

    Todos las versiones de los chips Bulldozer se fabrican igual, son el mismo chip, exactamente. Pero, como en todos los campos, hay variaciones de un chip a otro y de un lote a otro. Hay chips más rápidos (soportan mayor frecuencia) y los hay más estables a bajo voltaje (con menor consumo).

    Los chips FX8120 con peores características en cuanto a voltaje se etiquetan como TDP 125W y los mejores como 95W ya que al funcionar a un voltaje menor consumen menor potencia y disipan menos calor.

    El consumo de un procesador es proporcional (empíricamente) al cubo del voltaje. Doble voltaje, ocho veces más watt.

    Saludos,

    Carlos Yus.

    ResponderEliminar
  13. Cristien,

    Bulldozer en gama Opteron tendrá un buen potencial en cargas full threaded de enteros como bases de datos...

    Para estación de trabajo, cargas multithread de coma flotante, será menos competitivo.

    Las cachés responden al esquema que en numerosos artículos he remarcado.

    Una L1 pequeña con solo 4 vías de asociatividad y 4 ciclos load to use, un diseño no óptimo.

    La L2 grande, de 2 MB y 16 vías, pero con una latencia absurdamente elevada de 25 ciclos efectivos (me hace pensar seriamente que trabaja a frecuencia 1/2 que la de los cores). Es un valor de latencia rara y sospechosamente elevado, aunque hay que tener en cuenta que Bulldozer tiene un nivel de caché adicional entre L1 y L2.

    Es la L1.5 o Write Combining Caché. Son sólo 4 KB por INT core (hay 2 por módulo). Su función: dar al flujo de entrada (write) a L2 un modo r ráfaga en escritura para ahorrar ancho de banda de L2.

    La mala (horrible) velocidad de escritura en L1 es más sospechosa y sin duda alguna se debe a un fallo en el diseño no corregido en Bulldozer, en el siguiente núcleo se solventará.

    La L3, a mi modo de ver tiene un excelente diseño.

    En un próximo artículo detallaré todos estos puntos y muchos más sobre Bulldozer.

    Un saludo,

    Carlos Yus.

    ResponderEliminar
  14. http://www.tecchannel.de/server/prozessoren/2038251/cpu_test_amd_opteron_6262_he_und_6276_mit_16_core_bulldozer/index.html
    Como server.

    ResponderEliminar
  15. Anónimo,

    Me reitero una vez más en mis consideraciones. Creo que Bulldozer o AMD FX serie 8000 es un producto con un diseño inmaduro.

    Es capaz de mucho más de lo que da en configuraciones actuales, parece que Microsoft va a lanzar una actualización del Scheduler de Windows 7 que por sí sola aumentará el rendimiento de estas CPUs de un 5 a un 30% en función de la prueba específica.

    AMD debe corregir aspectos del diseño de las cachés L1d de 16 KB y 4 vías, es imperativo que aumenten a 32 KB y sería muy positivo que ampliase la asociatividad a 8 vías como Sandy Bridge.

    Sin duda también es importante reducir la latencia L2 hacia las proximidades de los 14 ciclos y mejorar el diseño del sistema de caché de escritura.

    Ahora mismo Bulldozer tiene 4 niveles de escritura en las cachés de datos(!!):

    L1d 16 KB, 4 ciclos, 4 way --> WCC L1.5d, ? ciclos, 4 KB --> L2 2048 MB, 18 - 20 ciclos, 16 vías --> L3 8192 KB, 40-50 ciclos, 64 vías.

    Demasiada complejidad, realmente innecesario, los ingenieros deberían estudiar más el diseño de Conroe 65 nm (Core2Duo), con su excelente estructura de cachés:

    L1d 32 KB, 3 ciclos, 4 vías --> L2 4096 KB, 14 ciclos, 16 vías.

    O la de su flamante descendiente de 45 nm:

    L1d 32 KB, 3 ciclos, 4 vías --> L2 6144 KB, 15 ciclos, 24 vías.

    Realmente mucho más equilibrado y si me lo permitís lógico.

    Un saludo,

    Carlos Yus.

    ResponderEliminar
  16. Se termina el año y no has dicho nada sobre Sandy Bridge E. Muy buenos todos los articulos!

    ResponderEliminar
  17. Anónimo,

    Poco tengo que decir sobre Sandy Bridge E.

    Es un octal core nativo con HT y 16 threads por chip y 4 canales DDR3. Me ha decepcionado el hecho de que Intel ha deshabilitado 2 cores dejando solamente 6 funcionales por limitaciones de TDP.

    El chip ha sido diseñado con cargas de servidor en mente y pensando en placas de 2 y 4 sockets, por ello incorpora 4 QPI y una gran cantidad de lógica en su complejísimo un-core.

    Intel, en mi opinión, debería haber diseñado por sobremesa y workstation un chip octal core pensado para 1 o dos sockets. Habría ahorrado mucha superficie (y con ello coste) y podría haber activado los 8 cores con un TDP de 130 - 150 W y muy altas frecuencias.

    De todos modos esto lo veremos pronto con Ivy Bridge E de 22 nm.

    Un saludo y felices fiestas,

    Carlos Yus.

    ResponderEliminar