tag:blogger.com,1999:blog-6644579903369065806.post6365466497448488567..comments2015-10-14T20:56:26.318+02:00Comments on LowLevelHardware: La microarquitectura de AMD Bulldozer. Actualizado - LowLevelHardwareaaqqhttp://www.blogger.com/profile/17016594305206647569noreply@blogger.comBlogger6125tag:blogger.com,1999:blog-6644579903369065806.post-67100062207021824832010-10-03T17:03:39.450+02:002010-10-03T17:03:39.450+02:00Anónimo, lo que comentas es posible.
La mayor ven...Anónimo, lo que comentas es posible.<br /><br />La mayor ventaja de un tal sistema consiste en que desacopla las etapas de Fetch y Decoding del resto del pipeline, haciendo que el Critical Path de ejecución sea más corto.<br /><br />La pega, como bien nos enseñó la arquitectura Netburst, es que acarrea muchísima complejidad adicional, lo que niega la mayoría de sus ventajas, además de ocupar más superficie de die y penalizar muchos ciclos adicionales en caso de Branch Misprediction...<br /><br />Una solución realmente elegante y eficaz es la uop Cache de Sandy Bridge; combina todas las ventajas y salva los inconvenientes... Excelente diseño.<br /><br />Un saludo,<br /><br />Carlos Yus.aaqqhttps://www.blogger.com/profile/17016594305206647569noreply@blogger.comtag:blogger.com,1999:blog-6644579903369065806.post-86381455387660471952010-10-02T21:54:56.970+02:002010-10-02T21:54:56.970+02:00Hola
Quizá pueda ser una cache 'extra' co...Hola<br /><br />Quizá pueda ser una cache 'extra' como la de trazas de los PIV que tiene copia de secuencias ya ejecutadas con anterioridad y no es necesario hacer Fetch a tantas instrucciones por ciclo (puesto que ya tiene posibles instrucciones a ejecutar pre-cargadas)<br /><br />Como ves?<br /><br />SaludosAnonymousnoreply@blogger.comtag:blogger.com,1999:blog-6644579903369065806.post-52934655494152222062010-09-15T14:41:27.276+02:002010-09-15T14:41:27.276+02:00Bueno, quizás tenga algo que ver con las etapas de...Bueno, quizás tenga algo que ver con las etapas de decodificación y una asincronía o isocronía respecto a los pipelines de ejecución en su diseño...<br /><br />Carlos Yus.aaqqhttps://www.blogger.com/profile/17016594305206647569noreply@blogger.comtag:blogger.com,1999:blog-6644579903369065806.post-30827303747527221432010-09-13T07:47:07.763+02:002010-09-13T07:47:07.763+02:00En opinion tuya de que se trataría ese as en la ma...En opinion tuya de que se trataría ese as en la manga que oculta AMD.<br />En el ejercicio de volar la imaginación y suponer algo, que crees podría ser, por que a la vista si bien el diseño es revolucionario, en latencia no ha evolucionado por lo vistoAnonymousnoreply@blogger.comtag:blogger.com,1999:blog-6644579903369065806.post-14557009426599474362010-09-12T11:00:12.744+02:002010-09-12T11:00:12.744+02:00Buenos días JBCH,
Las latencias L1d han ascendido...Buenos días JBCH,<br /><br />Las latencias L1d han ascendido hasta los 4 ciclos (como en Intel Nehalem o Atom), pero lo que es más alarmante es el incremento de la L2 hasta los 18 ciclos. 18 ciclos es quizás demasiado, tengamos en cuenta que la L2 de 6 MB de un Core 2 Duo de 45 nm tenía una latencia de 15 ciclos.<br /><br />Veremos como queda todo esto en los productos finales, pero a priori 18 ciclos parece basatnte alto.<br /><br />Sobre los cores de enteros (INT cores) con 2 ALUs + 2 AGUs, salta a la vista que en las etapas de ejecución Bulldozer ha perdido ancho de banda respecto a Shanghai (3 ALUs + 3 AGUs). Aunque Bulldozer ha ganado enormemente en las etapas de fetching y también, aunque más timidamente, en el decoding.<br /><br />En resumen, con los últimos datos a la vista espero de Bulldozer unas prestaciones similares a Shanghai core for core y clock for clock en enteros.<br /><br />Saludos,<br /><br />Carlos Yus.aaqqhttps://www.blogger.com/profile/17016594305206647569noreply@blogger.comtag:blogger.com,1999:blog-6644579903369065806.post-10588932967092760872010-09-12T00:05:20.581+02:002010-09-12T00:05:20.581+02:00Hola, dos preguntas de un neófito en estos temas, ...Hola, dos preguntas de un neófito en estos temas, porqué parece que las latencias de las caché L1 y L2 serán bastante mediocres?, y la otra es que mucho se criticaba el posible desempeño en un único hilo de enteros por cada "núcleo" (por lo 2 ALUs + 2 AGUs), pero aquí pareciera que hay un anchísimo núcleo de ejecución. <br /><br />No contradigo ni refuto nada, de repente me perdí o hay cosas básicas que desconozco (recién estoy empezando a leer sobre estos temas).<br />Muchas gracias por tus publicaciones y sigue adelanteJBCHhttps://www.blogger.com/profile/15334631241400296324noreply@blogger.com