AMD Bulldozer / Bobcat / Zambezi - Plataformas.

ThiagoLCK · 20 de agosto de 2010

processador 128 Núcles (128bits? até quanto de mem os 64bits suportam mesmo?),

A arquitetura em si suporta até 16 EiB de memória virtual (2^64) e até 4 PiB de memória física (2^52). Mas as implementações atuais usam apenas 48 dos 64 bits para memória virtual (256 TiB), e alguma coisa entre 36 e 48 bits para memória física (entre 64 GiB e 256 TiB).

Só para dar uma ideia, para encher os 256 TiB atualmente precisaríamos de 2^15 = 32768 módulos de 8 GiB, o que daria 9 milhões de dólares só em memórias... e para os 4 PiB precisaríamos de 2^19 = 524288 módulos, o que daria 150 milhões só em memórias. Os maiores supercomputadores já feitos não devem passar de 32 TiB e diga-se de passagem eu não me lembro de nada maior que 8 TiB.

Considerando que a memória dobre a cada dois anos, só daqui a 18 anos teremos alguma reclamação a respeito dos 52 bits, e isso por parte dos fabricantes de supercomputadores monolíticos (atualmente só existe a SGI). Ou seja, é provável que tenhamos de aguentar os 64 bits por mais pelo menos uns 25 anos.

Mesmo os supers da SGI, os Altix, que são os maiores sistemas monolíticos (não-clusters) já feitos, suportam até 192 TiB de memória (Altix 4700) em uma configuração extremamente bizonha e artificial, tanto que a versão atual, os Altix UV, suportam apenas 16 TiB (limite dos Becktons: 44 bits de memória física).

2Gb Cache (L1, L2 e L3)

Pegou pesado... em geral as coisas no máximo dobram a cada dois anos (Lei de Moore), então daqui a uns 5 anos provavelmente teremos no máximo 256 MiB de cache, e isso em processadores do nível dos Xeons MP, Itaniums e POWER7s.

4x32Gb DDR5 8Ghz...

Isso aí provavelmente será o Dual Channel... Quad Channel é quando precisarmos de 4 módulos para montar o barramento, mas cada módulo suporta até 64 bits. Quer dizer, a essa altura não dá para dizer muito... podemos ter adotado a XDR4 . E a DDR4 que é para daqui a 5 anos, a DDR5 virá depois, mas você acertou em cheio nas prováveis frequências de transmissão dela. Então, se fosse apostar em algo, apostaria nessas frequências ...

não devemos estar precisando mais do que 2 terabytes de memória RAM em desktops até 2015...

Eu aposto um SIMM de 8 MiB que a maioria dos desktops topo de linha serão montados com 16-32 GiB em 2015 . E os maiores módulos para servidores terão uns 64-128 GiB. Isso considerando que atualmente quase todos montam entre 4 e 8 GiB e que os maiores módulos tem 16 GiB (nem sei se existem, e com certeza são raros).

Sou menos estranbótico quanto a isto.
Provavelmente 16 a 64GB de RAM vai dar pra todo mundo ainda em 2015. 8 vezes mais que os pc's atuais costumam usar.

Soullforged usando cheat e fazendo contas com 2^(anos/2)!!!

Sim, a Hotchips é na próxima semana. Finalmente vamos ficar sabendo alguma coisa real do bulldozer.

Não desempenho, o próprio JF disse que não sairá nada a esse respeito. Mas da microarquitetura deve sair bastante coisa.

Gun'ss · 20 de agosto de 2010

ai ai... e eu com O mísero 1GiB de memória faço milagres, muitos mesmo hehe

mas oh, 2015 AMD terá um problema (eu acho né ) que é a largura de banda da memória RAM. Daqui pra lá ele deve ter GPUs mais Tops integradas com as CPUs. Só se a MB vir com chips de memória soldados à placa.

soullforged · 20 de agosto de 2010

ai ai... e eu com O mísero 1GiB de memória faço milagres' date=' muitos mesmo hehe
mas oh, 2015 AMD terá um problema (eu acho né ) que é a largura de banda da memória RAM. Daqui pra lá ele deve ter GPUs mais Tops integradas com as CPUs. Só se a MB vir com chips de memória soldados à placa.[/quote']

Isto até que não é problema, tendo em vista que as placas atuais já trazem em diversos casos 128mb DDR3 para serem usados pelo vídeo onboard.

Thiago, existe alguma razão especial para usar no meio de abreviações de memória como por exemplo GiB? A primeira vez que estou vendo este tipo de notação.

Quanto ao desempenho da "escavadeira", segundo JF, a AMD quer evitar que os produtos encalhem nas prateleiras por espera do novo. É o que chaman "mercadologicamente" de efeito osborne.

Evandro · 20 de agosto de 2010

Thiago, existe alguma razão especial para usar no meio de abreviações de memória como por exemplo GiB? A primeira vez que estou vendo este tipo de notação.

Tentei mas não achei onde isso foi citado aqui pelo Gabriel.

http://www.gdhpress.com.br/hardware/leia/index.php?p=cap5-27

Apenas diferenciando nomenclatura decimal e binária.

Ramon Neves · 20 de agosto de 2010

JEDEC divulga informações sobre memórias DDR4

O JEDEC, órgão responsável pela padronização das memórias, divulgou

durante uma conferência em Tóquio, no Japão, informações referentes às

memórias DDR4. Os primeiros chips de memória DDR4 serão fabricados com

tecnologia de 32 nm ou 36 nm e começarão a chegar ao mercado no próximo

ano, mas sua produção em massa só deverá acontecer em 2015. Os novos chips

de memória DDR4 suportarão clocks entre 2.133 MHz e 4.266 MHz e tensões de

alimentação de 1,1 V a 1,2 V. Atualmente as memórias DDR3 suportam clocks

de 1.066 MHz a 2.133 MHz.

Fonte:

http://bit.ly/aJeWvU

Essa informação veio no boletin aqui do fórum!!

Evandro · 20 de agosto de 2010

http://www.xbitlabs.com/news/cpu/display/20100819232051_AMD_Drops_Support_of_3DNow_Instructions.html

AMD não vai mais colocar o 3Dnow em seus processadores.

arcmatrixnt · 20 de agosto de 2010

http://www.xbitlabs.com/news/cpu/display/20100819232051_AMD_Drops_Support_of_3DNow_Instructions.html
AMD não vai mais colocar o 3Dnow em seus processadores.

e agora? é o fim do Athlon1 q dirá os K6

bem q alertou o Thiago...

isto é bom por demonstrar q vão atualizar os decoders, ou estou errado??

tb estão falando q o desempenho dos bdz num vai ser lá , vai ser tipo

Dragum · 21 de agosto de 2010

sem querer ser pessimista, mas em ponto flutuante a batalha tá perdida, e para conseguirem ganhar no resto, os engenheiros tem de fazer melhor do que tão fazendo até agora.... Hà uma bela distáncia para os I7.

Gun'ss · 21 de agosto de 2010

isso se chama Bulldozer

me lembro de ter lido, que alguém da AMD falou que em servidores 90% era inteiros, por isso focaram nessa parte... Isso foi no início dos rumores sobre a escavadeira

johannesrs · 21 de agosto de 2010

só eu que começo a achar que uma guinada desse tamanho pra inteiros em cpus é um pouco de excesso de confiança no poder do gpgpu?? afinal, ainda tem a questão da flexibilidade das mesmas!

Gun'ss · 21 de agosto de 2010

só eu que começo a achar que uma guinada desse tamanho pra inteiros em cpus é um pouco de excesso de confiança no poder do gpgpu?? afinal, ainda tem a questão da flexibilidade das mesmas!

talvez... Vi um cara dizendo que outro fator que atrapalha bastante o cGPU é a latência das memórias da GPU e a pouca quantidade de RAM que elas possuem

soullforged · 21 de agosto de 2010

sem querer ser pessimista, mas em ponto flutuante a batalha tá perdida, e para conseguirem ganhar no resto, os engenheiros tem de fazer melhor do que tão fazendo até agora.... Hà uma bela distáncia para os I7.

Rapah, eu já acho que a batalha em ponto flutuante está empatada. O grande coice dos phenoms é justamente inteiros, onde eles perdem de forma nada elegante pros cores.

EduardoS · 21 de agosto de 2010

sem querer ser pessimista, mas em ponto flutuante a batalha tá perdida, e para conseguirem ganhar no resto, os engenheiros tem de fazer melhor do que tão fazendo até agora.... Hà uma bela distáncia para os I7.

???

Tem certeza que você não está confundindo ponto flutuante com alguma outra coisa?

só eu que começo a achar que uma guinada desse tamanho pra inteiros em cpus é um pouco de excesso de confiança no poder do gpgpu?? afinal, ainda tem a questão da flexibilidade das mesmas!

Em muitos aspectos, GPUs são mais flexíveis do que os vetores das AVX, e ainda assim, nos casos difíceis de vetorizar MADD ainda é melhor do que vetores.

A área onde a AMD realmente precisa ralar pra incluir as GPUs na briga é em compressão de video.

Evandro · 21 de agosto de 2010

só eu que começo a achar que uma guinada desse tamanho pra inteiros em cpus é um pouco de excesso de confiança no poder do gpgpu?? afinal, ainda tem a questão da flexibilidade das mesmas!

Você pensou naquela mensagem dizendo que o Bulldozer foi pensado pra ser um Fusion ?

Evandro · 24 de agosto de 2010

Uepa !

http://www.fudzilla.com/processors/processors/processors/amd-details-its-bulldozer-and-bobcat-architecture

http://www.techpowerup.com/129402/AMD_s_Bobcat_Takes_Aim_at_Key_Consumer_Low-Power_Market_Segments.html

http://www.techpowerup.com/129392/AMD_Details_Bulldozer_Processor_Architecture.html

Slides da AMD falando do Bulldozer e do Fusion Bobcat.

http://www.fudzilla.com/graphics/graphics/amd-to-show-fusion-apu-in-september

Fusion deverá aparecer em uma feira em Setembro.

Twist r0x · 24 de agosto de 2010

to lendo esse: http://www.anandtech.com/show/3863/amd-discloses-bobcat-bulldozer-architectures-at-hot-chips-2010

doidaofox · 24 de agosto de 2010

Bulldozer processors will come in totally new packages that are not backwards compatible with older AMD sockets such as AM3 or AM2(+).

E lá se foram as esperanças de retrocompatibilidade do novo bichinho da AMD.

eranor · 24 de agosto de 2010

Thiago, existe alguma razão especial para usar no meio de abreviações de memória como por exemplo GiB? A primeira vez que estou vendo este tipo de notação.

Vou explicar...

No sistema internacional de unidades, a abreviação K(de quilo) é utilizada para denominar valores múltiplos de mil.

Exemplo: 1Kg = 1 quilo grama, ou seja, 1000 gramas.

Porém na informática, muitos anos atrás, formalizou-se de usar o mesmo padrão, K, M, G(quilo, mega, giga... e por aí vai).

Mas como alguns de vocês devem saber, na verdade quando dizemos o seguinte:

1KByte, queremos dizer na verdade 2^10 Bytes, ou seja, 1024 Bytes.

A algum tempo atrás, cerca de 2 anos ou algo assim, começou-se a difundir a ideia de uma unidade mais correta para ser usada na informática, diferindo-se das unidades padrão múltiplas de 1000.

Portanto, o que se procede é o seguinte:

1Kg=1000 gramas.

1KByte = 1000 bytes(porém quase ninguém usa nesta forma, usando os 1024 ainda...)

1KiByte = 1024 Bytes(que seria o correto, porém quase ninguém usa ainda, raras exceções).

Espero ter ajudado nas dúvidas.

arcmatrixnt · 24 de agosto de 2010

rapaz, vão diminuir o L2 de 64K pra 16K ou eu li totalmente errado

AM3 vai-se

será q o bdz vai ser forte porque tão matando AM3 e o resto:huh:

translation, please

Gun'ss · 24 de agosto de 2010

ta bonito. Pelo texto o bixo vai render bastante pra AMD. Não digo em performance porque ainda não da pra saber, mas em preço de fabricação, pelo visto, ele é bem inteligente (finalmente?!)

soullforged · 24 de agosto de 2010

rapaz, vão diminuir o L2 de 64K pra 16K ou eu li totalmente errado
AM3 vai-se

será q o bdz vai ser forte porque tão matando AM3 e o resto:huh:

translation, please

O artigo do Anandtech diz que cada pipeline (4 por núcleo) vai ter um cache L1 de 16KiB e vão ainda compartilhar um outro nível de 64KiB (que deve ser de dados).

Ao que me parece, pegaram os 64KiB de instruções e dividiram entre os pipelines, e estes poderão executar operações específicas fora de ordem. O que eu não sei dizer é se esses 16KiB de cada pipeline são idênticos ou não.

O Cache L2 será compartilhado por módulo inteiro, isto é: (8 pipelines) e terá 512KiB. Porém, os módulos não compartilham cache L2 entre si. Esta tarefa fica para o próximo nível.

O cache L3, sera integrado junto com o controlador de memória e compartilhado por todo mundo. Pelas minhas expectivativas deve ter entre 6 e 12MiB.

Dragum · 24 de agosto de 2010

???
Tem certeza que você não está confundindo ponto flutuante com alguma outra coisa?

Posso ta me atrapalhando (o bulldozer ta difícil de comprender), mas pelo que entendí, serão 4 unidades de ponto flutuante contra 8 FPUs dos i7 (no caso dos futuros octacore), isso, por melhor otimizado que seja a utilização das 4 unidades de FPU, não deixa de ser uma clara desvantágem. Onde está o problema na linha de raciocinio?

Diz que cada pipeline (4 por núcleo) vai ter um cache L1 de 16KiB e vão ainda compartilhar um outro nível de 64Kib de instruções.
O Cache L2 compartilhado terá 512KiB

O cache L3, sera integrado junto com o controlador de memória e também será compartilhado por todo mundo.

acho que o L2 compartilhado vai ser uma grande melhora: a latência é menor e pode resultar em desempenho por clock melhor agora. Mas... 512KiB para todos os núcleos parece-me errado! Anteriormente era 512KiB POR NÚCLEO... Acho que 512Kbits para 8 Núcleos (que podem usar dados totalmente diferentes dependendo da tarefa que cada um faz) me parece pouco, levando em conta que atuas PhII X4 tem 2M de L2 total mesmo que não seja compartilhado. 512KiB / 8 = 64KiB por núcleo, ou seja, praticamente um L1....

Athlon_man · 24 de agosto de 2010

Posso ta me atrapalhando (o bulldozer ta difícil de comprender), mas pelo que entendí, serão 4 unidades de ponto flutuante contra 8 FPUs dos i7 (no caso dos futuros octacore), isso, por melhor otimizado que seja a utilização das 4 unidades de FPU, não deixa de ser uma clara desvantágem. Onde está o problema na linha de raciocinio?

Provavelmente por as FPUs da AMD terem um melhor desempenho que as FPUs da Intel (foi o que eu entendi).

soullforged · 24 de agosto de 2010

acho que o L2 compartilhado vai ser uma grande melhora: a latência é menor e pode resultar em desempenho por clock melhor agora. Mas... 512KiB para todos os núcleos parece-me errado! Anteriormente era 512KiB POR NÚCLEO... Acho que 512Kbits para 8 Núcleos (que podem usar dados totalmente diferentes dependendo da tarefa que cada um faz) me parece pouco, levando em conta que atuas PhII X4 tem 2M de L2 total mesmo que não seja compartilhado. 512KiB / 8 = 64KiB por núcleo, ou seja, praticamente um L1....

Dragum, pelos slides o cache L2 não é geral. São 512KiB pra cada módulo de 2 núcleos. Ao todo, então, teríamos 2MiB de cache L2, dividido em 4 blocos de 512KiB.

Agora o cache L3, este sim deverá (na minha opnião) ter entre 6 e 12MiB compartilhado entre todos os módulos e pelo controlador de memória.

Posso ta me atrapalhando (o bulldozer ta difícil de comprender), mas pelo que entendí, serão 4 unidades de ponto flutuante contra 8 FPUs dos i7 (no caso dos futuros octacore), isso, por melhor otimizado que seja a utilização das 4 unidades de FPU, não deixa de ser uma clara desvantágem. Onde está o problema na linha de raciocinio?

Até onde eu entendi, cada módulo bulldozer terá duas FPU 128bits (FMAC) que podem se juntar pra processar 256bits de uma vez. Na prática é uma FPU por núcleo totalizando 8 num bulldozer de 4 módulos.

No caso da arquitetura Core, são 2 FPU por núcleo, sendo uma FADD e a outra FMUL/FDIV.

Outra particularidade do bulldozer é que as 2 unidades FMAC poderão processar SSE e AVX, enquanto no sandybridge haveriam unidades separadas para processar AVX (careço de mais leituras).

Mas daqui a pouco o Thiago ou o Eduardo vêm aqui e esclarecem tudo...

Abraços

Guilherme FW Xavier · 24 de agosto de 2010

Depois da dessa leitura, acredito que nem mesmo um up na minha máquina atual (ECS A780 Ultra com 4GB DDR2 e PH2 955) vai valer a pena já que o BZ virá com socket novo.

Se a AMD não queria encalhar mercadoria, errou feio ao falar do novo socket. Só mesmo se o preço de um X6 baixar muito para valer a troca.