FRnOG 38 - Florent Cragnolini : Que la puissance de calcul soit avec vous !

  • l’année dernière
FRnOG 38 - Florent Cragnolini : Que la puissance de calcul soit avec vous ! #HPC #datacenter #FRnOG
Transcription
00:00 Bonjour à tous, je me permets de me présenter, je m'appelle Florent Craniolini,
00:05 je suis Data Center Project and Design Manager chez Telehouse et aujourd'hui on
00:09 se retrouve pour parler densité, puissance de rack et technologie de
00:14 refroidissement. Alors on peut se demander pourquoi c'est
00:18 opportun d'en parler maintenant. En effet la puissance moyenne d'un rack
00:22 comme vous pouvez le voir sur l'écran a considérablement augmenté durant ces
00:25 dix dernières années et spécialement depuis 2017 pour atteindre plus de 10
00:33 kilowatts en 2022 donc quasiment doublé. Alors pourquoi ? Qu'est-ce qui change ?
00:40 Tout simplement le monde change, l'être humain, les hommes, les scientifiques, les
00:45 ingénieurs proposent de nouvelles solutions toujours plus innovantes ou
00:49 les développent. Les plus en vogue sont bien évidemment l'intelligence
00:52 artificielle ou le machine learning mais on peut également pointer du doigt le
00:58 portefeuille des services cloud qui ne cesse d'augmenter mais plus généralement
01:02 l'internet of things. Donc il s'agit d'une moyenne bien
01:07 évidemment 10 kilowatts en 2022 mais on constate donc de par l'Uptime Institute
01:13 que déjà 16% des baies sont au-delà de 20 kilowatts dans le monde quitte à
01:21 atteindre une cinquantaine de kilowatts donc 3%. Donc concrètement qu'est-ce que
01:28 ça change pour nous une société d'hébergement de data center comme
01:31 Telehouse ou bien même pour nos confrères ? Ces workloads donc qui se
01:35 traduisent par les les applicatifs qu'on vient de montrer
01:40 précédemment, rationnellement déjà plus de power de notre côté.
01:46 J'ai envie de dire que ça on gère mais le plus compliqué c'est la partie
01:50 cooling, refroidissement donc je vais vous montrer pourquoi. C'est une petite
01:56 image qui fait la corrélation entre la puissance d'une baie informatique et les
02:01 capacités de refroidissement et les technologies qui sont développées dans
02:04 le monde. Donc les data center conventionnels
02:08 utilisent l'air comme média thermique mais on peut voir qu'à partir de 20
02:12 kilowatts l'air présente ses limites donc les limites purement thermodynamiques
02:17 encore une fois. Donc on est obligé de se tourner vers des nouvelles solutions
02:23 pour trouver de meilleures solutions pour apprivoiser ces nouvelles
02:27 puissances et donc ces nouveaux dégagements de chaleur.
02:31 C'est pour ça qu'on se retrouve aujourd'hui pour vous présenter les
02:36 solutions dites de liquid cooling.
02:40 Tout d'abord j'aimerais faire un petit rappel de comment sont refroidis les
02:46 data center dans le monde, la plupart des data center dans le monde.
02:49 Donc comme énoncé précédemment les serveurs se refroidissent à l'air dans la
02:54 plupart des cas jusqu'à une certaine puissance.
02:58 Donc s'il s'agit d'un système fiable et éprouvé que telehouse continue de
03:03 déployer et continuera de déployer, mon but n'est pas de de descendre ce système
03:09 de refroidissement tout au contraire car il est fiable et éprouvé dans le monde
03:14 entier. Donc l'air simplement est amené aux serveurs et les ventilateurs vont se
03:20 charger de le transporter jusqu'aux sources de chaleur.
03:23 Cet air va donc se réchauffer et entrer en contact avec l'eau des armoires de
03:29 climatisation qui possède un échangeur air liquide et cette eau qui sera donc
03:35 réchauffée sera amenée au système de refroidissement conventionnel des data
03:39 center qui utilise notamment des cycles de compresseurs et de cycles entalpiques
03:45 pour refroidir un fluide frigorifique. Donc une fois avoir fait cette petite
03:51 revue du système air cooling on peut se demander le liquide. Alors pourquoi le
03:59 liquide ? Parce que de par sa forme physique le liquide peut transporter
04:03 mille fois plus de chaleur que de l'air pour une même unité de volume.
04:09 Il existe deux grandes familles pour le moment de liquid cooling. Donc le premier
04:15 qui est indirect. Pourquoi indirect ? Car le liquide n'est pas en contact direct
04:19 avec les sources de chaleur. Il s'agit encore d'un échange air liquide.
04:23 Donc typiquement qu'est ce qui change au niveau du rack ? J'ai envie de vous dire
04:28 pas grand chose. On vient juste ajouter un échangeur
04:31 thermique sur la porte arrière du rack. Donc le même air froid dont on vient de
04:37 parler dans les solutions air cooling finalement va par la même manière
04:41 passer grâce au ventilateur des serveurs et réchauffer l'eau à travers
04:47 l'échangeur qui est cette fois ci dans la porte.
04:50 Il existe deux principaux systèmes actifs ou passifs. La plus grande
04:55 différence entre ces deux, l'actif la porte est munie de ventilateurs
05:00 supplémentaires et dans le cas passif il n'y en a pas.
05:03 Donc on peut déjà voir que grâce à cette solution on peut déjà refroidir
05:09 près de 75 kilowatts par rack. Donc on s'améliore mais c'est pas assez.
05:17 Justement pour aller chercher encore plus d'efficacité on peut se tourner vers
05:21 une solution directe. Donc cette fois ci le contact est direct
05:25 entre le fluide et les sources de chaleur. L'échange est donc liquide-liquide.
05:30 Il existe deux grands types de direct liquid cooling pour le moment
05:35 notamment l'immersion et le direct to chip. Pour imager mes propos je vous
05:42 propose de détailler et de faire un zoom sur ces deux technologies.
05:48 Donc le direct to chip là où il est intéressant c'est qu'on vient appliquer
05:53 directement un échangeur à plaque sur les sources de chaleur.
05:56 Donc les principales sources de chaleur dans un serveur sont les cpu et bien
06:02 même les gpu maintenant. Donc cette plaque est hautement conductrice donc
06:08 de par son matériau souvent aluminium ou cuivre. Donc on va venir irriguer cet
06:14 échangeur qui est directement sur le cpu avec une solution d'ie électrique.
06:19 Parce qu'on se rend compte maintenant que l'eau est dans le serveur.
06:24 Ce qui peut poser d'autres problèmes bien évidemment. Donc cette eau sera ensuite
06:28 cette eau chaude qui sera réchauffée par le cpu sera ensuite évacuée par un
06:34 système extérieur au data center. La deuxième solution un peu moins
06:40 conventionnelle mais qui existe déjà c'est l'immersion. Donc là il faut un peu
06:45 plus de courage pour réussir à mettre ses serveurs dans un bain d'huile.
06:50 Mais ce qui est intéressant c'est qu'on peut évacuer 100% des calories
06:55 produites par les cpu et les gpu. On peut voir que dans ce
07:02 bain d'huile on a aussi un échangeur qui encore une fois liquide liquide et qui
07:06 assurera le refroidissement du bain d'huile car il se réchauffera et permettra
07:14 l'évacuation de ces calories à l'extérieur du bain d'huile.
07:19 Donc je vous ai mis deux petites photos pour vous rendre compte.
07:23 Donc en haut on a la solution direct to chip. On peut voir les fameuses plaques
07:28 que j'ai présentées précédemment avec les arrivées d'eau. Et la deuxième tout
07:34 simplement des serveurs dans une solution à base d'huile d'ie électrique.
07:39 Donc ce qui est intéressant avec ces technologies, on va parler des deux
07:42 communément, c'est le régime d'eau. Donc pour le air cooling on a besoin d'eau
07:48 dite glacée dans le monde du data center qui est autour de 17 degrés. Mais avec
07:54 ces solutions on peut se permettre de monter à on va dire aux alentours de 40
07:59 degrés. Son deuxième avantage c'est qu'on est au plus proche de la source de
08:04 chaleur. Dans les solutions air cooling nos armoires de climatisation sont en
08:09 périphérie. Donc on s'éloigne de cette source de
08:12 chaleur. Donc c'est pour ça que c'est intéressant ces deux technologies. On est
08:16 vraiment au plus proche de la chaleur. Comme énoncé précédemment, le but
08:22 est de récupérer le maximum de chaleur par un liquide. Donc 80% c'est les chiffres
08:29 qui circulent avec le direct to chip cooling et jusqu'à 100% dans le
08:35 cas de l'immersion. On parlait de densité dans les premières slides.
08:40 Donc on se rend compte que cette densification est largement
08:45 possible grâce à ces solutions de refroidissement et très intéressante
08:51 pour nous hébergeurs de data center qui nous permettront de réduire notre
08:54 footprint infra. Permettez moi d'étoffer mes propos
09:00 quant à la solution direct to chip. Je vais vous présenter
09:05 brièvement les principaux composants de ces solutions.
09:09 Le premier est le cooling distribution unit, CDU. Ce CDU permet l'interface
09:19 thermique entre la charge IT, donc les serveurs, et l'infrastructure du data
09:23 center. Il s'agit d'un échangeur liquide-liquide.
09:27 Donc qu'est ce qu'on peut retrouver dans ce CDU ? On peut retrouver tout un tas de
09:31 choses. Bien sûr des pompes qui assureront la distribution du liquide
09:36 jusqu'au serveur, qui seront pilotées par des variateurs de fréquence.
09:39 On retrouve notre fameux échangeur et tout un tas d'autres choses
09:44 comme de vannes d'isolement, des contrôleurs et des sons internes.
09:48 Ce qui est également intéressant et ce qu'on cherche dans le monde du data
09:53 center, c'est de l'automatisation. Donc toutes ces armoires
10:00 CDU possèdent un automatisme interne intelligent de type programmable logic
10:06 controller, plus communément appelé PLC, qui va interagir et réguler
10:14 sur la pression, le débit et la température des liquides pour assurer
10:19 une continuité de service en termes de température jusqu'au CPU et au GPU.
10:24 Donc ces solutions sont disponibles en type INRAC. Comme vous pouvez le voir il
10:30 s'agit d'un CDU INRAC sur la présentation. Pardon INRO, excusez-moi
10:35 j'ai trompé. Mais également INRAC, donc encore plus proche de la source de
10:40 chaleur. Les INRAC font approximativement une 4U, pour vous donner un ordre d'idée.
10:46 Donc une fois avoir parlé du CDU, maintenant on va parler de comment le
10:53 liquide est acheminé jusqu'au serveur. Donc ça c'est le rôle du manifold.
10:59 Ici il a été en orange. Donc le manifold il va assurer la
11:04 distribution du liquide du CDU jusqu'au serveur.
11:08 Donc il s'agit tout simplement de collecteurs tubulaires, comme vous pouvez
11:12 le voir sur la photo de droite. Donc un aller et un retour. On se doute que le
11:17 bleu c'est pour l'eau froide qui est plus tellement froide. Comme on a dit 40
11:23 degrés dans les slides précédentes. Et un retour, donc les petits tuyaux que vous
11:29 pouvez voir en rouge. Donc ces collecteurs tubulaires sont
11:33 munis de ramifications qui vont permettre une certaine flexibilité de
11:39 rackage des équipements, de par leur nombre et également de par leur matériau
11:44 flexible. Et les constructeurs de manifolds ont réussi à développer des
11:50 connexions rapides et surtout anti-fuite.
11:56 Une fois avoir parlé du manifold, donc de l'acheminement jusqu'au serveur, on va
12:02 faire un petit focus sur les colplates, ce qui est la dernière pièce du
12:07 puzzle de la solution direct to chip. Donc c'est la dernière interface
12:13 thermique entre les sources de chaleur, donc les CPU et les GPU et le CDU, après
12:18 avoir passé le manifold bien sûr. Donc comme énoncé précédemment, ces
12:25 plaques sont souvent faites d'aluminium ou de cuivre pour leur propriété de
12:30 conductivité thermique. Et l'engineering autour de ces plaques
12:34 permet donc la réduction de la résistance thermique mais également des
12:41 pertes de charges induites par des pertes de pression dans ces plaques.
12:46 Et il est intéressant également de souligner l'adaptabilité de
12:52 cette solution sur un grand nombre de serveurs.
12:56 Donc on est légitime maintenant de se poser la question de pourquoi le direct
13:02 liquid cooling dans un datacenter colo. Tout d'abord on peut parler d'efficacité
13:07 énergétique. Donc on a vu que les régimes d'eau étaient bien plus
13:11 élevés pour cette solution, ce qui nous ommet les compresseurs très énergivores
13:19 des groupes froids que nous avons l'habitude de voir dans les datacenters.
13:24 Donc ces régimes de température et également le fait de se rapprocher de la
13:28 source de chaleur vont améliorer notre PUE qui traduit, pour ne pas trop rentrer
13:34 dans les détails, le Power Usage Effectiveness qui traduit finalement
13:38 l'efficacité énergétique de nos installations.
13:42 Ensuite on peut parler de peak performance pour les CPU et les GPU qui
13:47 vont nous permettre de tirer le meilleur de ces équipements, mieux appréhender
13:51 l'overclocking et bien sûr allonger leur durée de vie.
13:57 Comme énoncé précédemment, la réduction du footprint est possible grâce à cette
14:05 densification. On peut également noter le fait que la
14:10 pollution sonore est réduite. Donc pourquoi elle est réduite ? Il y a moins
14:14 de ventilateurs dans les serveurs et moins de ventilateurs dans les armoires
14:18 de climatisation conventionnelle qu'on a l'habitude de voir dans les data hall et
14:22 on maîtrise la température. Et un dernier point, et pas des moindres, qui est
14:27 important pour nous, c'est que ces régimes d'eau justement, donc entre 40°C à
14:33 l'aller et pratiquement plus de 50°C au retour, nous permettent une certaine
14:37 aisance de raccordement au réseau de chaleur urbain pour ne pas finalement
14:42 gaspiller cette chaleur fatale produite par les serveurs et en faire profiter
14:47 notamment la ville ou bien même des écoles.
14:52 Donc tout ça pour vous dire que Téléhouse se tient prêt. En effet, 1 MW
15:01 de puissance IT a été réservée par nos soins afin d'accueillir vos projets.
15:08 Donc ce qu'on propose c'est du refroidissement liquide et tout
15:13 particulièrement une technologie direct to chip qu'on vient de présenter.
15:19 Donc avec le CDU, le manifold, le cold plate et l'interaction directe entre nos
15:24 dry cooler existants sur site. Donc cette solution va nous permettre, va vous
15:30 permettre in fine, de monter jusqu'à 100 kW par rack.
15:36 Quelques bullet points en plus concernant notre solution tier 3
15:43 bien évidemment pour assurer la continuité de service. Un PUE réduit
15:48 dès 80% de charge IT autour de 1,2. On va sommettre tous besoins d'eau pour
15:53 refroidir nos équipements IT et on va porter une certaine attention à la
15:59 dissociation physique des réseaux hydrauliques et électriques afin d'éviter
16:04 tout problème dans nos environnements IT.
16:09 Et pour finir, on a ouvert un nouveau data center tout fraîchement lundi
16:14 d'une puissance de 18 MW IT qui dans le futur accueillera également des
16:19 solutions d'hybridation pouvant faire cohabiter le air cooling et le
16:25 liquid cooling. Merci à tous.
16:31 Est-ce qu'il y a des questions ?
16:35 Merci pour l'orientation. Petite question pour le traitement de l'eau en fait à l'intérieur.
16:47 Alors c'est un très bon point. C'est surtout que le traitement de l'eau en
16:52 général, ça on sait que c'est normal mais maintenant que le réseau est en
16:55 commun c'est plus juste de l'air, peut-il y avoir des nouveaux participants
16:59 justement qui se connectent au réseau et qui ont des waterblocks en cuivre,
17:03 d'autres en alu, il y a de la corrosion qui peut se faire, des petites paillettes
17:06 qui vont lécher les autres. Comment on peut isoler entre les
17:09 différents participants pour pas que l'équipement de l'un vienne gêner l'autre ?
17:14 Non c'est une très bonne question et elle est pertinente.
17:17 Donc tout d'abord notre système inclura un suivi et un traitement de l'eau
17:21 bien évidemment fait d'adoucisseurs et d'osmoser.
17:25 Donc notre but ce sera de vous accompagner justement à développer ces
17:30 solutions et du coup se couvrir des besoins que vous avez évoqués.
17:35 On vous accompagnera dans le déploiement de vos serveurs ou bien
17:40 même de vos solutions liquid cooling.
17:43 Ok merci, on n'a pas trop le temps pour d'autres questions mais merci.
17:47 Merci beaucoup.

Recommandations