Comments on LowLevelHardware: La microarquitectura de AMD Bulldozer. Actualizado - LowLevelHardware

Anónimo, lo que comentas es posible. La mayor ven...

2010-10-03T17:03:39.450+02:00

Anónimo, lo que comentas es posible.

La mayor ventaja de un tal sistema consiste en que desacopla las etapas de Fetch y Decoding del resto del pipeline, haciendo que el Critical Path de ejecución sea más corto.

La pega, como bien nos enseñó la arquitectura Netburst, es que acarrea muchísima complejidad adicional, lo que niega la mayoría de sus ventajas, además de ocupar más superficie de die y penalizar muchos ciclos adicionales en caso de Branch Misprediction...

Una solución realmente elegante y eficaz es la uop Cache de Sandy Bridge; combina todas las ventajas y salva los inconvenientes... Excelente diseño.

Un saludo,

Carlos Yus.

Hola Quizá pueda ser una cache 'extra' co...

2010-10-02T21:54:56.970+02:00

Hola

Quizá pueda ser una cache 'extra' como la de trazas de los PIV que tiene copia de secuencias ya ejecutadas con anterioridad y no es necesario hacer Fetch a tantas instrucciones por ciclo (puesto que ya tiene posibles instrucciones a ejecutar pre-cargadas)

Como ves?

Saludos

Bueno, quizás tenga algo que ver con las etapas de...

2010-09-15T14:41:27.276+02:00

Bueno, quizás tenga algo que ver con las etapas de decodificación y una asincronía o isocronía respecto a los pipelines de ejecución en su diseño...

Carlos Yus.

En opinion tuya de que se trataría ese as en la ma...

2010-09-13T07:47:07.763+02:00

En opinion tuya de que se trataría ese as en la manga que oculta AMD.
En el ejercicio de volar la imaginación y suponer algo, que crees podría ser, por que a la vista si bien el diseño es revolucionario, en latencia no ha evolucionado por lo visto

Buenos días JBCH, Las latencias L1d han ascendido...

2010-09-12T11:00:12.744+02:00

Buenos días JBCH,

Las latencias L1d han ascendido hasta los 4 ciclos (como en Intel Nehalem o Atom), pero lo que es más alarmante es el incremento de la L2 hasta los 18 ciclos. 18 ciclos es quizás demasiado, tengamos en cuenta que la L2 de 6 MB de un Core 2 Duo de 45 nm tenía una latencia de 15 ciclos.

Veremos como queda todo esto en los productos finales, pero a priori 18 ciclos parece basatnte alto.

Sobre los cores de enteros (INT cores) con 2 ALUs + 2 AGUs, salta a la vista que en las etapas de ejecución Bulldozer ha perdido ancho de banda respecto a Shanghai (3 ALUs + 3 AGUs). Aunque Bulldozer ha ganado enormemente en las etapas de fetching y también, aunque más timidamente, en el decoding.

En resumen, con los últimos datos a la vista espero de Bulldozer unas prestaciones similares a Shanghai core for core y clock for clock en enteros.

Saludos,

Carlos Yus.

Hola, dos preguntas de un neófito en estos temas, ...

2010-09-12T00:05:20.581+02:00

Hola, dos preguntas de un neófito en estos temas, porqué parece que las latencias de las caché L1 y L2 serán bastante mediocres?, y la otra es que mucho se criticaba el posible desempeño en un único hilo de enteros por cada "núcleo" (por lo 2 ALUs + 2 AGUs), pero aquí pareciera que hay un anchísimo núcleo de ejecución.

No contradigo ni refuto nada, de repente me perdí o hay cosas básicas que desconozco (recién estoy empezando a leer sobre estos temas).
Muchas gracias por tus publicaciones y sigue adelante