FRnOG 38 - Florent Cragnolini : Que la puissance de calcul soit avec vous ! - Vidéo Dailymotion

Vidéos des réunions FRnOG

FRnOG 38 - Florent Cragnolini : Que la puissance de calcul soit avec vous ! #HPC #datacenter #FRnOG

Transcript

00:00 Bonjour à tous, je me permets de me présenter, je m'appelle Florent Craniolini,

00:05 je suis Data Center Project and Design Manager chez Telehouse et aujourd'hui on

00:09 se retrouve pour parler densité, puissance de rack et technologie de

00:14 refroidissement. Alors on peut se demander pourquoi c'est

00:18 opportun d'en parler maintenant. En effet la puissance moyenne d'un rack

00:22 comme vous pouvez le voir sur l'écran a considérablement augmenté durant ces

00:25 dix dernières années et spécialement depuis 2017 pour atteindre plus de 10

00:33 kilowatts en 2022 donc quasiment doublé. Alors pourquoi ? Qu'est-ce qui change ?

00:40 Tout simplement le monde change, l'être humain, les hommes, les scientifiques, les

00:45 ingénieurs proposent de nouvelles solutions toujours plus innovantes ou

00:49 les développent. Les plus en vogue sont bien évidemment l'intelligence

00:52 artificielle ou le machine learning mais on peut également pointer du doigt le

00:58 portefeuille des services cloud qui ne cesse d'augmenter mais plus généralement

01:02 l'internet of things. Donc il s'agit d'une moyenne bien

01:07 évidemment 10 kilowatts en 2022 mais on constate donc de par l'Uptime Institute

01:13 que déjà 16% des baies sont au-delà de 20 kilowatts dans le monde quitte à

01:21 atteindre une cinquantaine de kilowatts donc 3%. Donc concrètement qu'est-ce que

01:28 ça change pour nous une société d'hébergement de data center comme

01:31 Telehouse ou bien même pour nos confrères ? Ces workloads donc qui se

01:35 traduisent par les les applicatifs qu'on vient de montrer

01:40 précédemment, rationnellement déjà plus de power de notre côté.

01:46 J'ai envie de dire que ça on gère mais le plus compliqué c'est la partie

01:50 cooling, refroidissement donc je vais vous montrer pourquoi. C'est une petite

01:56 image qui fait la corrélation entre la puissance d'une baie informatique et les

02:01 capacités de refroidissement et les technologies qui sont développées dans

02:04 le monde. Donc les data center conventionnels

02:08 utilisent l'air comme média thermique mais on peut voir qu'à partir de 20

02:12 kilowatts l'air présente ses limites donc les limites purement thermodynamiques

02:17 encore une fois. Donc on est obligé de se tourner vers des nouvelles solutions

02:23 pour trouver de meilleures solutions pour apprivoiser ces nouvelles

02:27 puissances et donc ces nouveaux dégagements de chaleur.

02:31 C'est pour ça qu'on se retrouve aujourd'hui pour vous présenter les

02:36 solutions dites de liquid cooling.

02:40 Tout d'abord j'aimerais faire un petit rappel de comment sont refroidis les

02:46 data center dans le monde, la plupart des data center dans le monde.

02:49 Donc comme énoncé précédemment les serveurs se refroidissent à l'air dans la

02:54 plupart des cas jusqu'à une certaine puissance.

02:58 Donc s'il s'agit d'un système fiable et éprouvé que telehouse continue de

03:03 déployer et continuera de déployer, mon but n'est pas de de descendre ce système

03:09 de refroidissement tout au contraire car il est fiable et éprouvé dans le monde

03:14 entier. Donc l'air simplement est amené aux serveurs et les ventilateurs vont se

03:20 charger de le transporter jusqu'aux sources de chaleur.

03:23 Cet air va donc se réchauffer et entrer en contact avec l'eau des armoires de

03:29 climatisation qui possède un échangeur air liquide et cette eau qui sera donc

03:35 réchauffée sera amenée au système de refroidissement conventionnel des data

03:39 center qui utilise notamment des cycles de compresseurs et de cycles entalpiques

03:45 pour refroidir un fluide frigorifique. Donc une fois avoir fait cette petite

03:51 revue du système air cooling on peut se demander le liquide. Alors pourquoi le

03:59 liquide ? Parce que de par sa forme physique le liquide peut transporter

04:03 mille fois plus de chaleur que de l'air pour une même unité de volume.

04:09 Il existe deux grandes familles pour le moment de liquid cooling. Donc le premier

04:15 qui est indirect. Pourquoi indirect ? Car le liquide n'est pas en contact direct

04:19 avec les sources de chaleur. Il s'agit encore d'un échange air liquide.

04:23 Donc typiquement qu'est ce qui change au niveau du rack ? J'ai envie de vous dire

04:28 pas grand chose. On vient juste ajouter un échangeur

04:31 thermique sur la porte arrière du rack. Donc le même air froid dont on vient de

04:37 parler dans les solutions air cooling finalement va par la même manière

04:41 passer grâce au ventilateur des serveurs et réchauffer l'eau à travers

04:47 l'échangeur qui est cette fois ci dans la porte.

04:50 Il existe deux principaux systèmes actifs ou passifs. La plus grande

04:55 différence entre ces deux, l'actif la porte est munie de ventilateurs

05:00 supplémentaires et dans le cas passif il n'y en a pas.

05:03 Donc on peut déjà voir que grâce à cette solution on peut déjà refroidir

05:09 près de 75 kilowatts par rack. Donc on s'améliore mais c'est pas assez.

05:17 Justement pour aller chercher encore plus d'efficacité on peut se tourner vers

05:21 une solution directe. Donc cette fois ci le contact est direct

05:25 entre le fluide et les sources de chaleur. L'échange est donc liquide-liquide.

05:30 Il existe deux grands types de direct liquid cooling pour le moment

05:35 notamment l'immersion et le direct to chip. Pour imager mes propos je vous

05:42 propose de détailler et de faire un zoom sur ces deux technologies.

05:48 Donc le direct to chip là où il est intéressant c'est qu'on vient appliquer

05:53 directement un échangeur à plaque sur les sources de chaleur.

05:56 Donc les principales sources de chaleur dans un serveur sont les cpu et bien

06:02 même les gpu maintenant. Donc cette plaque est hautement conductrice donc

06:08 de par son matériau souvent aluminium ou cuivre. Donc on va venir irriguer cet

06:14 échangeur qui est directement sur le cpu avec une solution d'ie électrique.

06:19 Parce qu'on se rend compte maintenant que l'eau est dans le serveur.

06:24 Ce qui peut poser d'autres problèmes bien évidemment. Donc cette eau sera ensuite

06:28 cette eau chaude qui sera réchauffée par le cpu sera ensuite évacuée par un

06:34 système extérieur au data center. La deuxième solution un peu moins

06:40 conventionnelle mais qui existe déjà c'est l'immersion. Donc là il faut un peu

06:45 plus de courage pour réussir à mettre ses serveurs dans un bain d'huile.

06:50 Mais ce qui est intéressant c'est qu'on peut évacuer 100% des calories

06:55 produites par les cpu et les gpu. On peut voir que dans ce

07:02 bain d'huile on a aussi un échangeur qui encore une fois liquide liquide et qui

07:06 assurera le refroidissement du bain d'huile car il se réchauffera et permettra

07:14 l'évacuation de ces calories à l'extérieur du bain d'huile.

07:19 Donc je vous ai mis deux petites photos pour vous rendre compte.

07:23 Donc en haut on a la solution direct to chip. On peut voir les fameuses plaques

07:28 que j'ai présentées précédemment avec les arrivées d'eau. Et la deuxième tout

07:34 simplement des serveurs dans une solution à base d'huile d'ie électrique.

07:39 Donc ce qui est intéressant avec ces technologies, on va parler des deux

07:42 communément, c'est le régime d'eau. Donc pour le air cooling on a besoin d'eau

07:48 dite glacée dans le monde du data center qui est autour de 17 degrés. Mais avec

07:54 ces solutions on peut se permettre de monter à on va dire aux alentours de 40

07:59 degrés. Son deuxième avantage c'est qu'on est au plus proche de la source de

08:04 chaleur. Dans les solutions air cooling nos armoires de climatisation sont en

08:09 périphérie. Donc on s'éloigne de cette source de

08:12 chaleur. Donc c'est pour ça que c'est intéressant ces deux technologies. On est

08:16 vraiment au plus proche de la chaleur. Comme énoncé précédemment, le but

08:22 est de récupérer le maximum de chaleur par un liquide. Donc 80% c'est les chiffres

08:29 qui circulent avec le direct to chip cooling et jusqu'à 100% dans le

08:35 cas de l'immersion. On parlait de densité dans les premières slides.

08:40 Donc on se rend compte que cette densification est largement

08:45 possible grâce à ces solutions de refroidissement et très intéressante

08:51 pour nous hébergeurs de data center qui nous permettront de réduire notre

08:54 footprint infra. Permettez moi d'étoffer mes propos

09:00 quant à la solution direct to chip. Je vais vous présenter

09:05 brièvement les principaux composants de ces solutions.

09:09 Le premier est le cooling distribution unit, CDU. Ce CDU permet l'interface

09:19 thermique entre la charge IT, donc les serveurs, et l'infrastructure du data

09:23 center. Il s'agit d'un échangeur liquide-liquide.

09:27 Donc qu'est ce qu'on peut retrouver dans ce CDU ? On peut retrouver tout un tas de

09:31 choses. Bien sûr des pompes qui assureront la distribution du liquide

09:36 jusqu'au serveur, qui seront pilotées par des variateurs de fréquence.

09:39 On retrouve notre fameux échangeur et tout un tas d'autres choses

09:44 comme de vannes d'isolement, des contrôleurs et des sons internes.

09:48 Ce qui est également intéressant et ce qu'on cherche dans le monde du data

09:53 center, c'est de l'automatisation. Donc toutes ces armoires

10:00 CDU possèdent un automatisme interne intelligent de type programmable logic

10:06 controller, plus communément appelé PLC, qui va interagir et réguler

10:14 sur la pression, le débit et la température des liquides pour assurer

10:19 une continuité de service en termes de température jusqu'au CPU et au GPU.

10:24 Donc ces solutions sont disponibles en type INRAC. Comme vous pouvez le voir il

10:30 s'agit d'un CDU INRAC sur la présentation. Pardon INRO, excusez-moi

10:35 j'ai trompé. Mais également INRAC, donc encore plus proche de la source de

10:40 chaleur. Les INRAC font approximativement une 4U, pour vous donner un ordre d'idée.

10:46 Donc une fois avoir parlé du CDU, maintenant on va parler de comment le

10:53 liquide est acheminé jusqu'au serveur. Donc ça c'est le rôle du manifold.

10:59 Ici il a été en orange. Donc le manifold il va assurer la

11:04 distribution du liquide du CDU jusqu'au serveur.

11:08 Donc il s'agit tout simplement de collecteurs tubulaires, comme vous pouvez

11:12 le voir sur la photo de droite. Donc un aller et un retour. On se doute que le

11:17 bleu c'est pour l'eau froide qui est plus tellement froide. Comme on a dit 40

11:23 degrés dans les slides précédentes. Et un retour, donc les petits tuyaux que vous

11:29 pouvez voir en rouge. Donc ces collecteurs tubulaires sont

11:33 munis de ramifications qui vont permettre une certaine flexibilité de

11:39 rackage des équipements, de par leur nombre et également de par leur matériau

11:44 flexible. Et les constructeurs de manifolds ont réussi à développer des

11:50 connexions rapides et surtout anti-fuite.

11:56 Une fois avoir parlé du manifold, donc de l'acheminement jusqu'au serveur, on va

12:02 faire un petit focus sur les colplates, ce qui est la dernière pièce du

12:07 puzzle de la solution direct to chip. Donc c'est la dernière interface

12:13 thermique entre les sources de chaleur, donc les CPU et les GPU et le CDU, après

12:18 avoir passé le manifold bien sûr. Donc comme énoncé précédemment, ces

12:25 plaques sont souvent faites d'aluminium ou de cuivre pour leur propriété de

12:30 conductivité thermique. Et l'engineering autour de ces plaques

12:34 permet donc la réduction de la résistance thermique mais également des

12:41 pertes de charges induites par des pertes de pression dans ces plaques.

12:46 Et il est intéressant également de souligner l'adaptabilité de

12:52 cette solution sur un grand nombre de serveurs.

12:56 Donc on est légitime maintenant de se poser la question de pourquoi le direct

13:02 liquid cooling dans un datacenter colo. Tout d'abord on peut parler d'efficacité

13:07 énergétique. Donc on a vu que les régimes d'eau étaient bien plus

13:11 élevés pour cette solution, ce qui nous ommet les compresseurs très énergivores

13:19 des groupes froids que nous avons l'habitude de voir dans les datacenters.

13:24 Donc ces régimes de température et également le fait de se rapprocher de la

13:28 source de chaleur vont améliorer notre PUE qui traduit, pour ne pas trop rentrer

13:34 dans les détails, le Power Usage Effectiveness qui traduit finalement

13:38 l'efficacité énergétique de nos installations.

13:42 Ensuite on peut parler de peak performance pour les CPU et les GPU qui

13:47 vont nous permettre de tirer le meilleur de ces équipements, mieux appréhender

13:51 l'overclocking et bien sûr allonger leur durée de vie.

13:57 Comme énoncé précédemment, la réduction du footprint est possible grâce à cette

14:05 densification. On peut également noter le fait que la

14:10 pollution sonore est réduite. Donc pourquoi elle est réduite ? Il y a moins

14:14 de ventilateurs dans les serveurs et moins de ventilateurs dans les armoires

14:18 de climatisation conventionnelle qu'on a l'habitude de voir dans les data hall et

14:22 on maîtrise la température. Et un dernier point, et pas des moindres, qui est

14:27 important pour nous, c'est que ces régimes d'eau justement, donc entre 40°C à

14:33 l'aller et pratiquement plus de 50°C au retour, nous permettent une certaine

14:37 aisance de raccordement au réseau de chaleur urbain pour ne pas finalement

14:42 gaspiller cette chaleur fatale produite par les serveurs et en faire profiter

14:47 notamment la ville ou bien même des écoles.

14:52 Donc tout ça pour vous dire que Téléhouse se tient prêt. En effet, 1 MW

15:01 de puissance IT a été réservée par nos soins afin d'accueillir vos projets.

15:08 Donc ce qu'on propose c'est du refroidissement liquide et tout

15:13 particulièrement une technologie direct to chip qu'on vient de présenter.

15:19 Donc avec le CDU, le manifold, le cold plate et l'interaction directe entre nos

15:24 dry cooler existants sur site. Donc cette solution va nous permettre, va vous

15:30 permettre in fine, de monter jusqu'à 100 kW par rack.

15:36 Quelques bullet points en plus concernant notre solution tier 3

15:43 bien évidemment pour assurer la continuité de service. Un PUE réduit

15:48 dès 80% de charge IT autour de 1,2. On va sommettre tous besoins d'eau pour

15:53 refroidir nos équipements IT et on va porter une certaine attention à la

15:59 dissociation physique des réseaux hydrauliques et électriques afin d'éviter

16:04 tout problème dans nos environnements IT.

16:09 Et pour finir, on a ouvert un nouveau data center tout fraîchement lundi

16:14 d'une puissance de 18 MW IT qui dans le futur accueillera également des

16:19 solutions d'hybridation pouvant faire cohabiter le air cooling et le

16:25 liquid cooling. Merci à tous.

16:31 Est-ce qu'il y a des questions ?

16:35 Merci pour l'orientation. Petite question pour le traitement de l'eau en fait à l'intérieur.

16:47 Alors c'est un très bon point. C'est surtout que le traitement de l'eau en

16:52 général, ça on sait que c'est normal mais maintenant que le réseau est en

16:55 commun c'est plus juste de l'air, peut-il y avoir des nouveaux participants

16:59 justement qui se connectent au réseau et qui ont des waterblocks en cuivre,

17:03 d'autres en alu, il y a de la corrosion qui peut se faire, des petites paillettes

17:06 qui vont lécher les autres. Comment on peut isoler entre les

17:09 différents participants pour pas que l'équipement de l'un vienne gêner l'autre ?

17:14 Non c'est une très bonne question et elle est pertinente.

17:17 Donc tout d'abord notre système inclura un suivi et un traitement de l'eau

17:21 bien évidemment fait d'adoucisseurs et d'osmoser.

17:25 Donc notre but ce sera de vous accompagner justement à développer ces

17:30 solutions et du coup se couvrir des besoins que vous avez évoqués.

17:35 On vous accompagnera dans le déploiement de vos serveurs ou bien

17:40 même de vos solutions liquid cooling.

17:43 Ok merci, on n'a pas trop le temps pour d'autres questions mais merci.

17:47 Merci beaucoup.

FRnOG 38 - Florent Cragnolini : Que la puissance de calcul soit avec vous !

Category

Transcription

Recommandations