[GTC] GK110 : le GPU à 7.1 milliards de transistors de la Tesla K20 se montre
Tesla K10 : une GeForce GTX 690 pour serveurs
Au sein de son calendrier de sessions de la GTC, NVIDIA faisait récemment référence à Kepler comme à une architecture qui prenait place au sein d'un GPU à 7 milliards de transistors. On se demandait alors si cela faisait référence à la GeForce GTX 690, encore sous NDA à ce moment-là... on apprend aujourd'hui que non, le caméléon venant de lever le voile sur le GK110.
Tout d'abord, il faut savoir qu'il ne sera pas utilisé au sein de la Tesla K10 que nous avions rapidement évoquée hier et qui s'avère être au final un équivalent de la GeForce GTX 690, avec deux GK104 mais aussi 4 Go de GDDR5 par GPU. Il sera par contre au coeur de la Tesla K20 qui arrivera d'ici la fin de l'année.
Rien n'a été indiqué concernant une éventuelle arrivée au sein d'une Quadro ou d'une GeForce.
Cette nouvelle puce est bel et bien composée de 7.1 milliards de transistors, et se veut donc deux fois plus importante (et performante ?) que le GK104 et ses 3,54 milliards de transistors au compteur. Le caméléon semble ainsi avoir décidé de frapper un grand coup dans le secteur des serveurs à haute performance, bien que l'on se demande comment il va pouvoir livrer de tels GPU en 28 nm alors qu'il semble encore avoir du mal à assurer la production de la version grand public.
Pour le reste, NVIDIA se refuse à donner le moindre détail sur son architecture. On peut voir sur l'image diffusée que 15 groupes d'unités (SMX) se répètent et selon nos confrères de BSN, son interface mémoire serait toujours de 384 bits, ce qu'il faudra confirmer d'ici une communication plus complète de la part du constructeur.
Mais la marque n'évoque au final que les nouvelles technologies qu'elle souhaite mettre en avant : Hyper-Q et Dynamic Parallelism, qui sont détaillées au sein de ce document. La première permet au CPU de communiquer avec le GPU via 32 canaux concurrents, contre 1 seul pour Fermi.
Une manière de maximiser les performances selon NVIDIA, en permettant au processeur d'envoyer assez d'informations au GPU pour l'occuper au maximum de son potentiel :
Si cette pratique n'était pas totalement impossible auparavant, elle impliquait des goulots d'étranglement que NVIDIA promet de faire disparaître. Reste à voir ce qu'il en sera dans le monde réel.
La seconde concerne elle aussi la communication entre le CPU et le GPU, mais elle pourrait bien s'avérer bien plus intéressante dans la pratique. En effet, elle permet au premier d'envoyer des suites d'ordres au GPU (kernels) qui pourra ensuite s'en donner à lui-même (kernels imbriqués). Auparavant, il fallait à chaque fois repasser par le processeur central, ce qui impliquait une forte perte d'efficacité qui n'a plus lieu d'être ici :
Une manière de simplifier grandement le travail des développeurs qui devrait aller de pair avec l'arrivée de CUDA 5 et de nouveaux outils sur lesquels nous reviendrons assez vite.

Tout d'abord, il faut savoir qu'il ne sera pas utilisé au sein de la Tesla K10 que nous avions rapidement évoquée hier et qui s'avère être au final un équivalent de la GeForce GTX 690, avec deux GK104 mais aussi 4 Go de GDDR5 par GPU. Il sera par contre au coeur de la Tesla K20 qui arrivera d'ici la fin de l'année.
Rien n'a été indiqué concernant une éventuelle arrivée au sein d'une Quadro ou d'une GeForce.
Cette nouvelle puce est bel et bien composée de 7.1 milliards de transistors, et se veut donc deux fois plus importante (et performante ?) que le GK104 et ses 3,54 milliards de transistors au compteur. Le caméléon semble ainsi avoir décidé de frapper un grand coup dans le secteur des serveurs à haute performance, bien que l'on se demande comment il va pouvoir livrer de tels GPU en 28 nm alors qu'il semble encore avoir du mal à assurer la production de la version grand public.
Pour le reste, NVIDIA se refuse à donner le moindre détail sur son architecture. On peut voir sur l'image diffusée que 15 groupes d'unités (SMX) se répètent et selon nos confrères de BSN, son interface mémoire serait toujours de 384 bits, ce qu'il faudra confirmer d'ici une communication plus complète de la part du constructeur.
Crédits : NVIDIA
Mais la marque n'évoque au final que les nouvelles technologies qu'elle souhaite mettre en avant : Hyper-Q et Dynamic Parallelism, qui sont détaillées au sein de ce document. La première permet au CPU de communiquer avec le GPU via 32 canaux concurrents, contre 1 seul pour Fermi.
Une manière de maximiser les performances selon NVIDIA, en permettant au processeur d'envoyer assez d'informations au GPU pour l'occuper au maximum de son potentiel :
Si cette pratique n'était pas totalement impossible auparavant, elle impliquait des goulots d'étranglement que NVIDIA promet de faire disparaître. Reste à voir ce qu'il en sera dans le monde réel.
La seconde concerne elle aussi la communication entre le CPU et le GPU, mais elle pourrait bien s'avérer bien plus intéressante dans la pratique. En effet, elle permet au premier d'envoyer des suites d'ordres au GPU (kernels) qui pourra ensuite s'en donner à lui-même (kernels imbriqués). Auparavant, il fallait à chaque fois repasser par le processeur central, ce qui impliquait une forte perte d'efficacité qui n'a plus lieu d'être ici :

Une manière de simplifier grandement le travail des développeurs qui devrait aller de pair avec l'arrivée de CUDA 5 et de nouveaux outils sur lesquels nous reviendrons assez vite.
David Legrand
Journaliste, responsable des PCi Labs. Geek de l'extrême spécialisé dans l'analyse des produits high-tech, les réseaux sociaux et les trios d'écrans. Adepte du libre.
Le 16 mai 2012 à 10:50
(11 284
lectures)
Il y a 20 commentaires
Excellent le coup des kernels imbriqués, il va encore falloir reprendre le code..
Sinon début de réponse pour le rendement problématique d'une telle puce : les rumeurs annoncent 13 unités fonctionnelles sur les 15, pour améliorer le yield. Pressé de voir la bestiole, les perfs pour les utilisateurs de CUDA stagnaient depuis bien longtemps..
Sinon début de réponse pour le rendement problématique d'une telle puce : les rumeurs annoncent 13 unités fonctionnelles sur les 15, pour améliorer le yield. Pressé de voir la bestiole, les perfs pour les utilisateurs de CUDA stagnaient depuis bien longtemps..
comme ça à tout hasard avec ce genre de carte on pourrais jouer sur une config pc avec par exemple un surround gaming trois écrans 4k branché (je sais j'exagère mais ce genre de config est pour les supers riches dans quelques années en faite c'est juste pour savoir si avec cette carte orienté pour un usage spécifique on peu quand même jouer ou c'est pas possible
Edité par d4rkvicious le mercredi 16 mai 2012 à 11:27
Edité par d4rkvicious le mercredi 16 mai 2012 à 11:27
the_frogkiller
Le mercredi 16 mai 2012 à 11:29:52
#3
Inscrit
le samedi 13 octobre 07
-
1399
commentaires
quand je pense que j'avais lu il y a quelques années que la capacité de calcul d'un cerveau humain était de l'ordre de 5Teraflops. la capacité de calcul n'est pas tout mais quand même
Reparateur
Le mercredi 16 mai 2012 à 11:38:01
#4
Inscrit
le mardi 29 décembre 09
-
1458
commentaires
on ne peut pas quantifier le capacité de calcule d'un cerveau humain par rapport a un microprocesseur
ça n'a aucun rapport niveau fonctionnement architecture et capacité intrinsèque
c'est comme comparer la choucroute au billard aucun rapport
Sinon impressionnante cette puce !
reste à voir les application
parce que bon par exemple dans mon domaine les calcule sont encore fait par des pross classique et généralement les programme sont pas opti au delà de 4 coeur lol
Edité par Reparateur le mercredi 16 mai 2012 à 11:38
ça n'a aucun rapport niveau fonctionnement architecture et capacité intrinsèque
c'est comme comparer la choucroute au billard aucun rapport
Sinon impressionnante cette puce !
reste à voir les application
parce que bon par exemple dans mon domaine les calcule sont encore fait par des pross classique et généralement les programme sont pas opti au delà de 4 coeur lol
Edité par Reparateur le mercredi 16 mai 2012 à 11:38
the_frogkiller
Le mercredi 16 mai 2012 à 11:47:10
#5
Inscrit
le samedi 13 octobre 07
-
1399
commentaires
on ne peut pas quantifier le capacité de calcule d'un cerveau humain par rapport a un microprocesseur
ça n'a aucun rapport niveau fonctionnement architecture et capacité intrinsèque
c'est comme comparer la choucroute au billard aucun rapport
Sinon impressionnante cette puce !
reste à voir les application
parce que bon par exemple dans mon domaine les calcule sont encore fait par des pross classique et généralement les programme sont pas opti au delà de 4 coeur lol
ça n'a aucun rapport niveau fonctionnement architecture et capacité intrinsèque
c'est comme comparer la choucroute au billard aucun rapport
Sinon impressionnante cette puce !
reste à voir les application
parce que bon par exemple dans mon domaine les calcule sont encore fait par des pross classique et généralement les programme sont pas opti au delà de 4 coeur lol
je sais bien c'est pour ça que j'ai dit que ce n'est pas tout. et bien que parallèle ça ne l'est pas autant qu'un cerveau et que les processeurs sont encore binaire ce qui est loin d'être le cas d'un neurone. néanmoins pour arriver à un cerveau-like artificiel il faut augmenter la capacité de calcul. Je trouve ça amusant que pour cette variable une simple puce approche grosso merdo cela
Il n'est plus possible de commenter cette actualité
Vous devez être connecté ou vous inscrire en haut pour pouvoir participer aux commentaires.













