Seit Jahren ist die Geschichte vonRechenzentrumDer Energieverbrauch folgte einem vorhersehbaren Bogen. Die Digitalisierung nahm zwar zu, aber Effizienzgewinne durch bessere Server, Virtualisierung und Cloud-Konsolidierung hielten den Gesamtstromverbrauch überraschend niedrig. Der weltweite Strombedarf von Rechenzentren lag fast ein Jahrzehnt lang bei rund 1 Prozent des gesamten Stromverbrauchs – etwa 200 Terawattstunden pro Jahr.
Diese Ära geht zu Ende.
Die Konvergenz von generativer KI, Kryptowährungs-Mining, Edge-Computing und dem exponentiellen Wachstum vernetzter Geräte hat die alte Effizienzkurve durchbrochen. Schätzungen der Branche zeigen nun, dass der Strombedarf von Rechenzentren mit jährlichen Raten wächst, wie seit Anfang der 2000er Jahre nicht mehr. In einigen Regionen – Irland, Nord-Virginia und Singapur – machen Rechenzentren bereits 15 bis 25 Prozent des gesamten Stromverbrauchs aus, was die Regulierungsbehörden dazu zwingt, Moratorien für Neubauten zu verhängen.
Vor diesem Hintergrund sind Infrastrukturentscheidungen, die einst wie technische Details schienen – Kühlungsarchitektur, Stromverteilungstopologie, Planung der Rackdichte –, zu Entscheidungen in der Vorstandsetage geworden. Energiekosten sind kein Einzelposten mehr. Es ist ein Wachstumshemmnis.
Die Power Usage Effectiveness (PUE) ist seit fast zwei Jahrzehnten die Standard-Effizienzmetrik der Rechenzentrumsbranche. Es handelt sich um ein einfaches Verhältnis: Gesamtleistung der Anlage dividiert durch die Leistung der IT-Geräte.
Ein PUE-Wert von 2,0 bedeutet, dass für jedes Watt, das Server und Speicher mit Strom versorgt, ein weiteres Watt für Kühlung, Beleuchtung, Stromumwandlungsverluste und andere Gemeinkosten aufgewendet wird. Ein PUE von 1,2 bedeutet, dass der Overhead nur 0,2 Watt pro IT-Watt verbraucht.
Die Branche hat allgemein akzeptierte Stufen basierend auf PUE:
| Ebene | PUE | DCiE | Was es bedeutet |
|---|---|---|---|
| Platin | <1,25 | >0,80 | Weltklasse-Effizienz erfordert normalerweise freie Kühlung oder Flüssigkeitskühlung |
| Gold | 1,25 – 1,43 | 0,70 – 0,80 | Sehr effizient, mit modernen Designs in gemäßigten Klimazonen erreichbar |
| Silber | 1,43 – 1,67 | 0,60 – 0,70 | Akzeptabel für ältere Einrichtungen oder wärmere Klimazonen |
| Bronze | 1,67 – 2,00 | 0,50 – 0,60 | Typisch für ältere Rechenzentren ohne größere Nachrüstungen |
| Gerecht | 2,00 – 2,50 | 0,40 – 0,50 | Schlechte Effizienz, hohe Betriebskosten |
| Arm | >2,50 | <0,40 | Kritische Ineffizienz erfordert wahrscheinlich sofortige Aufmerksamkeit |
Das Problem besteht darin, dass viele Organisationen ihren PUE nicht wirklich kennen. Sie schätzen. Sie vermuten. Oder sie messen nur am Hauptverbrauchszähler und übernehmen den Rest.
Eine Branchenumfrage aus dem Jahr 2023 ergab, dass fast 40 Prozent der Rechenzentrumsbetreiber noch nie den PUE auf Rack-Ebene gemessen hatten. Bei denjenigen, die dies taten, betrug die Differenz zwischen gemeldetem und tatsächlichem PUE durchschnittlich 0,3 Punkte – genug, um eine Einrichtung von Gold auf Silber umzustellen, ohne dass es jemand bemerkte.
Um zu verstehen, warum der PUE-Wert so stark schwankt, muss man zunächst untersuchen, wo der Strom ein Rechenzentrum verlässt.
In einer typischen luftgekühlten Anlage mit einem PUE-Wert um 1,8 sieht die Aufteilung ungefähr so aus:
Die Kühllast ist die größte Variable. Eine Anlage in einem gemäßigten Klima, die Außenluft zur freien Kühlung nutzt, wendet möglicherweise nur 15 Prozent ihres Nicht-IT-Stroms für die Kühlung auf. Die gleiche Anlage könnte in einem tropischen Klima mit ganzjähriger mechanischer Kühlung 40 Prozent ausgeben.
Aus diesem Grund geben Colocation-Anbieter PUE auf der Ebene der Einrichtung bekannt, liefern PUE jedoch auf Kundenebene – unterschiedliche Zahlen, unterschiedliche Auswirkungen. Der Kunde bezahlt alles.
Bei der herkömmlichen Verwaltung von Rechenzentren ging man von einer relativ statischen Umgebung aus. Die Regale wurden über Monate oder Jahre gefüllt. Die Kühlung könnte langsam angepasst werden. Die Stromverteilung war vom ersten Tag an überdimensioniert.
Das Cloud-Zeitalter hat die Annahmen verändert. Die Regale füllen sich jetzt innerhalb weniger Tage. Arbeitslasten werden automatisch zwischen den Servern verschoben. KI-Cluster mit hoher Dichte verbrauchen möglicherweise dreimal so viel Strom wie benachbarte Allzweck-Rechner-Racks.
Diese Veränderungen haben ein Umdenken im Infrastrukturmanagement erzwungen. Drei Trends stechen hervor.
Erstens nimmt die Dichte ungleichmäßig zu.Ein Standard-Server-Rack verbrauchte vor einem Jahrzehnt 5-8 Kilowatt. Heutzutage verbrauchen Allzweck-Racks 10–15 Kilowatt. Racks für Hochleistungsrechnen und KI-Training übersteigen regelmäßig 30 Kilowatt pro Rack. Einige überschreiten 50 Kilowatt.
Dies führt zu Herausforderungen beim Wärmemanagement, die die Luftkühlung nur schwer lösen kann. Bei 20 Kilowatt pro Rack bleibt die Luftkühlung bei ordnungsgemäßer Eindämmung effektiv. Bei 30 Kilowatt wird es grenzwertig. Ab 40 Kilowatt wird die Flüssigkeitskühlung von optional zu notwendig.
Zweitens ist die Kapazitätsplanung prädiktiv geworden.Die alte Methode – mehr Kapazität als nötig zu kaufen und sie ungenutzt zu lassen – funktioniert im großen Maßstab nicht mehr. Bei ungenutzter Kapazität fallen sowohl Kapitalkosten als auch laufende Wartungskosten an.
Moderne Infrastrukturmanagementsysteme nutzen historische Daten und Workload-Prognosen, um vorherzusagen, wann Strom, Kühlung oder Rack-Platz knapp werden. Die besten Systeme können Tage oder Wochen bevor eine Einschränkung kritisch wird, empfehlen, ob die vorhandene Kapazität neu konfiguriert oder neue Hardware bestellt werden soll.
Drittens gelten Sichtbarkeitsanforderungen zpandierte.Ein herkömmliches Rechenzentrum könnte die Stromversorgung auf PDU-Ebene verfolgen. Eine moderne Einrichtung benötigt Transparenz auf Rack-Ebene, manchmal auf Serverebene und zunehmend auch auf Workload-Ebene – zu wissen, welche virtuelle Maschine oder welcher Container welchen Stromverbrauch verursacht.
RechenzentrumsinfrastrukturManagementsoftware (DCIM) gibt es schon seit über einem Jahrzehnt, doch die Akzeptanz ist nach wie vor uneinheitlich. Weniger als die Hälfte der Unternehmensrechenzentren haben ein vollständiges DCIM-System implementiert. Viele nutzten nur einen Bruchteil seiner Fähigkeiten.
Ein ordnungsgemäß implementiertes DCIM-System bewirkt vier Dinge:
Vermögensverwaltung.Jeder Server, Switch, jede PDU und jede Kühleinheit wird in einer Konfigurationsverwaltungsdatenbank (CMDB) verfolgt. Standort, Nennleistung, Netzwerkverbindungen, Wartungshistorie – alles. Das hört sich zwar einfach an, aber viele Unternehmen verfolgen ihre Assets immer noch in Tabellenkalkulationen, deren Aktualisierungen Monate dauern.
Echtzeitüberwachung.Stromverbrauch auf PDU- oder Rack-Ebene, Temperatur und Luftfeuchtigkeit an Versorgungs- und Rückführungspunkten, Status des Kühlsystems, Zustand der USV-Batterie. Alarme werden ausgelöst, wenn Parameter von den Sollwerten abweichen. Ziel ist es, Probleme zu erkennen, bevor sie zu Ausfallzeiten führen.
Kapazitätsplanung.Das System weiß, wie viel Strom- und Kühlkapazität verfügbar ist, wie viel genutzt wird und wie viel für zukünftige Einsätze reserviert ist. Es kann die Auswirkungen des Hinzufügens eines neuen High-Density-Racks oder der Stilllegung einer Reihe älterer Server modellieren.
Visualisierung.Ein digitaler Zwilling des Rechenzentrums – Rack für Rack, Kachel für Kachel – zeigt den aktuellen Zustand und ermöglicht es den Betreibern, Änderungen zu simulieren. 10 Kilowatt Last in Zeile drei, Spalte vier hinzufügen: Übersteigt das die Kühlkapazität? Das System antwortet, bevor jemand Geräte bewegt.
Die Senkung des Energieverbrauchs von Rechenzentren ist kein Geheimnis. Die Methoden sind gut verstanden. Die Herausforderung liegt in der Umsetzungsdisziplin.
Erhöhen Sie die Zulufttemperatur.Die meisten Rechenzentren laufen kalt – 18 bis 20 Grad Celsius am Rücklauf der Kühleinheit –, weil die Betreiber dies schon immer getan haben. Die ASHRAE-Richtlinien empfehlen jetzt 24 bis 27 Grad. Mit jedem Grad Anstieg sinkt die Kühlenergie um rund 4 Prozent. Der Betrieb bei 26 Grad statt 20 Grad spart 20–25 Prozent Kühlleistung.
Vermeiden Sie die Vermischung von heißer und kalter Luft.Warmgang-Einhausung, Kaltgang-Einhausung oder vertikale Abluftkanäle sorgen dafür, dass die Kühlluft dorthin gelangt, wo sie benötigt wird, anstatt kurzzeitig durch die Vorderseite der Racks zu strömen. Allein die Eindämmung reduziert die Kühlenergie typischerweise um 15–25 Prozent.
Verwenden Sie Antriebe mit variabler Drehzahl.Lüfter und Pumpen mit konstanter Drehzahl verschwenden bei Teillast Energie. Antriebe mit variabler Drehzahl passen den Luft- und Wasserdurchsatz an den tatsächlichen Bedarf an. Die Amortisationszeit einer Nachrüstung beträgt in der Regel 1–3 Jahre.
Optimieren Sie den USV-Betrieb.Die meisten USV-Systeme laufen kontinuierlich im Doppelwandlungsmodus und wandeln Wechselstrom in Gleichstrom und wieder zurück in Wechselstrom um, selbst wenn der Netzstrom sauber ist. Moderne USV-Systeme können in den Eco-Modus wechseln, wenn die Stromqualität dies zulässt, und erreichen so einen Wirkungsgrad von 99 Prozent statt 94-96 Prozent. Der Nachteil ist eine kurze Übertragungszeit zur Batterie, wenn die Stromversorgung ausfällt. Bei IT-Lasten mit Netzteilen, die für solche Übertragungen ausgelegt sind, ist das Risiko minimal.
Einführung einer höheren Spannungsverteilung.Die Verteilung von Strom bei 415 V statt bei 208 V reduziert die Verteilungsverluste um etwa 25 Prozent. Dies erfordert kompatible PDUs und Server-Netzteile, wird aber von vielen modernen Geräten unterstützt.
Shangyu CPSY Company, ein High-Tech-Unternehmen mit Schwerpunkt auf Rechenzentrumsinfrastruktur, meldet einen PUE von 1,3 für seine modularen Rechenzentrumslösungen. Damit wird das Unternehmen in die Gold-Stufe eingestuft und bewegt sich in Richtung Platin.
Die behauptete Energieeinsparung von 25 Prozent im Vergleich zu herkömmlichen Konstruktionen ist auf mehrere Faktoren zurückzuführen. Modulare USV-Systeme mit einem Wirkungsgrad von 97,4 Prozent auf Systemebene reduzieren Verteilungsverluste, die sonst bei 15 bis 20 Prozent liegen. Präzisionsklimaanlagen mit Kompressoren mit variabler Drehzahl und EC-Lüftern passen die Kühlleistung an die tatsächliche Wärmelast an, anstatt mit fester Kapazität zu laufen. Und die physische Anordnung – Warmgangeinhausung, optimaler Rackabstand, erhöhter Boden mit perforierten Fliesen in der richtigen Größe – berücksichtigt das Luftstrommanagement, das viele ansonsten effiziente Einrichtungen beeinträchtigt.
Das Zertifizierungsportfolio des Unternehmens umfasst ISO 9001 (Qualitätsmanagement) und ISO 27001 (Informationssicherheitsmanagement). Zu den Kundeneinsätzen gehören Partnerschaften mit Huawei, ZTE und Inspur sowie Exportinstallationen in den Vereinigten Staaten, im Vereinigten Königreich, in Deutschland, Frankreich und Australien.
Flüssigkeitskühlung war jahrelang eine Nischentechnologie für Supercomputing-Zentren. Das ändert sich rasant.
KI-Trainingscluster mit NVIDIA H100- oder kommenden B200-GPUs erzeugen in rein luftgekühlten Konfigurationen 30–50 Kilowatt pro Rack. Bei diesen Dichten erfordert die Luftkühlung hohe Luftstromraten – laute Lüfter, tiefe Racks und immer noch eine marginale Temperaturkontrolle.
Durch die Direkt-zu-Chip-Flüssigkeitskühlung werden 60–80 Prozent der Wärme an der Quelle abgeführt. Die Chips laufen kühler. Die Lüfter laufen langsamer. Die Raumklimaanlage verarbeitet nur die verbleibende Wärme von Netzteilen, Speicher und anderen Komponenten.
Der Effizienzgewinn ist erheblich. Anlagen mit Direct-to-Chip-Kühlung melden PUE-Werte von 1,1 bis 1,2. Die Nachteile sind höhere Kapitalkosten, ein komplexeres Leckmanagement und die Notwendigkeit einer Wasseraufbereitung auf Anlagenniveau.
Die vollständige Immersionskühlung – das Eintauchen ganzer Server in dielektrische Flüssigkeit – senkt den PUE-Wert unter 1,1, bleibt aber spezialisiert. Die meisten kommerziellen Rechenzentren werden zunächst die direkte Kühlung auf dem Chip und später die Immersion für bestimmte Zonen mit hoher Dichte einsetzen.
Die SHANGYU-Rechenzentrumsplattform umfasst Bestimmungen für Luft- und Flüssigkeitskühlungsarchitekturen und berücksichtigt, dass künftige Einsätze mit hoher Dichte unabhängig vom Anlagendesign ein flüssigkeitsbasiertes Wärmemanagement erfordern werden.
Die meisten Rechenzentrumsbetriebsteams arbeiten immer noch reaktiv. Ein Alarm ertönt. Jemand untersucht. Ein Fix wird angewendet. Der Zyklus wiederholt sich.
Der Übergang zum vorausschauenden Management erfordert drei Fähigkeiten, die vielen Unternehmen fehlen.
Vollständige Konfigurationsdaten.Zu wissen, was sich im Rechenzentrum befindet – jeder Server, jeder Switch, jede PDU, jede Kühleinheit – ist die Grundlage. Ohne genaue CMDB-Daten ist die Kapazitätsplanung eine Spekulation.
Granulare Telemetrie.Die Leistungsmessung auf Rack-Ebene ist das Minimum. Die Leistungsmessung pro Server ist besser. Die Leistungszuordnung auf Workload-Ebene ist am besten, aber am schwierigsten zu erreichen.
Analysen, die Signale von Rauschen unterscheiden.Ein Temperaturanstieg an einem Rack kann auf einen ausgefallenen Lüfter hinweisen. Ein Temperaturanstieg in der Hälfte des Rechenzentrums könnte auf einen Ausfall der Kühlanlage hinweisen. Das System muss entsprechend differenzieren und Antworten empfehlen.
Die DCIM-Plattform von SHANGYU bietet SNMP- und Modbus-Geräteunterstützung, webbasierte und Windows-Anwendungsschnittstellen sowie die Integration mit Netzwerkkameras für ereignisgesteuerte Bildgebung. Die erklärten Ziele sind klar: kostspielige Ausfallzeiten reduzieren, tägliche Betriebskosten durch vollständige Umgebungskontrolle senken und die Transparenz und Rückverfolgbarkeit des Managements verbessern.
Der Energieverbrauch von Rechenzentren macht etwa 1 Prozent des weltweiten Strombedarfs aus. Diese Zahl klingt klein, bis man sie in den Kontext stellt. Dies entspricht in etwa dem gesamten Stromverbrauch des Vereinigten Königreichs.
Noch wichtiger ist, dass sich die Wachstumsrate beschleunigt. Branchenprognosen zeigen, dass der Strombedarf von Rechenzentren bis 2030 jährlich um 10–15 Prozent steigt, angetrieben durch KI, die Einführung von Clouds und die kontinuierliche Verbreitung vernetzter Geräte. Bei diesem Tempo würden Rechenzentren bis zum Ende des Jahrzehnts 3-4 Prozent des weltweiten Stroms verbrauchen.
Die Effizienzsteigerungen, die den Stromverbrauch im letzten Jahrzehnt niedrig hielten, resultierten aus der Servervirtualisierung (Reduzierung der Anzahl physischer Server), einer verbesserten Laufwerkseffizienz (Umstellung von rotierenden Festplatten auf SSDs) und dem breiten Einsatz freier Kühlung (Verwendung von Außenluft anstelle mechanischer Kühlung). Diese niedrig hängenden Früchte wurden größtenteils gepflückt.
Die nächste Welle der Effizienz wird durch Flüssigkeitskühlung, höhere Spannungsverteilung, KI-optimierte Kühlsteuerungen und – was vielleicht am wichtigsten ist – eine bessere Abstimmung zwischen Infrastrukturkapazität und tatsächlicher IT-Last entstehen. Letzteres erfordert die Art von Echtzeittransparenz und prädiktiver Analyse, die DCIM-Systeme bieten, die aber nur wenige Einrichtungen vollständig nutzen.
Kennen Sie Ihren tatsächlichen PUE-Wert und nicht die Zahl auf dem Datenblatt?Wenn Sie nicht am USV-Ausgang und am Eingang der IT-Geräte gemessen haben, wissen Sie es nicht. Der Unterschied ist Ihr tatsächlicher Overhead.
Kämpfen Ihre Kühlsysteme miteinander?In vielen Rechenzentren sind CRAC-Einheiten auf überlappende Temperatur- und Luftfeuchtigkeitsbereiche eingestellt. Eine Einheit entfeuchtet, während eine andere befeuchtet. Einer kühlt, während ein anderer aufheizt. Das ist nicht ungewöhnlich. Es ist auch nicht effizient.
Wie hoch ist der Leerlaufstromverbrauch Ihrer Server?Branchendaten zeigen, dass typische Unternehmensserver im Ruhezustand 30 bis 40 Prozent ihrer Spitzenleistung verbrauchen. Das Herunterfahren oder Versetzen ungenutzter Server ist die Effizienzmaßnahme mit dem höchsten ROI, die es gibt. Es wird auch am meisten übersehen.
Könnten Sie Ihre Zulufttemperatur um zwei Grad erhöhen, ohne gegen die Gerätespezifikationen zu verstoßen?Wahrscheinlich ja. Die meisten Geräte sind für Ansaugtemperaturen von 25–27 Grad ausgelegt. Die meisten Rechenzentren laufen bei 20–22 Grad. Dieser Unterschied von sechs Grad steht für jahrelange unnötige Kühlenergie.
Wann haben Sie die Effizienz Ihrer USV zum letzten Mal validiert?Der auf dem Typenschild angegebene Wirkungsgrad wird bei Volllast mit perfektem Leistungsfaktor gemessen. Der reale Wirkungsgrad bei Teillast mit realem Leistungsfaktor kann 5–10 Punkte niedriger sein.