NVIDIA stellt Vera Rubin POD 40-Rack-KI-Supercomputer für agentische Workloads vor
Iris Coleman 16.03.2026 19:48
NVIDIA kündigt Vera Rubin POD mit 1.152 GPUs über 40 Racks an, der 60 Exaflops liefert und eine 10-mal bessere Inferenzleistung pro Watt als Blackwell bietet.
NVIDIA hat gerade die Spezifikationen für sein bisher ehrgeizigstes KI-Infrastrukturprojekt veröffentlicht. Der Vera Rubin POD enthält 1.152 Rubin-GPUs über 40 Racks und liefert 60 Exaflops Rechenleistung sowie 10 Petabyte pro Sekunde Gesamtbandbreite für Scale-up. Produktionseinheiten werden in der zweiten Hälfte von 2026 ausgeliefert.
Die Zahlen hier sind überwältigend: 1,2 Billiarden Transistoren, fast 20.000 NVIDIA-Dies, alle so konstruiert, dass sie als ein einziger kohärenter Supercomputer funktionieren. NVIDIA behauptet eine 4-mal bessere Trainingsleistung und 10-mal bessere Inferenzleistung pro Watt im Vergleich zu seiner aktuellen Blackwell-Architektur – wobei die Token-Kosten auf ein Zehntel des aktuellen Niveaus sinken.
Fünf speziell entwickelte Rack-Systeme
Der POD kombiniert fünf verschiedene Rack-Scale-Systeme, die jeweils spezifische Engpässe in modernen KI-Workloads adressieren:
Vera Rubin NVL72 dient als zentrale Recheneinheit. Jedes Rack integriert 72 Rubin-GPUs und 36 Vera-CPUs, die über NVLink 6 verbunden sind, was 3,6 TB/s Bandbreite pro GPU ermöglicht – mehr Gesamtbandbreite als das gesamte globale Internet, so NVIDIA. Das System zielt auf alle vier KI-Skalierungsgesetze ab: Pretraining, Post-Training, Test-Time-Scaling und agentisches Scaling.
Groq 3 LPX-Racks lösen das Latenzproblem. Mit 256 Sprachverarbeitungseinheiten pro Rack unter Verwendung einer reinen SRAM-Architektur werden diese mit NVL72 gepaart, um laut NVIDIA 35-mal mehr Token und 10-mal mehr Umsatzchancen für Billionen-Parameter-Modelle im Vergleich zu Blackwell zu liefern.
Vera CPU-Racks bieten Sandbox-Umgebungen für Agententests. Ein einzelnes Rack unterstützt über 22.500 gleichzeitige Reinforcement-Learning-Umgebungen – entscheidend für die Validierung agentischer KI-Ausgaben vor der Bereitstellung.
BlueField-4 STX-Racks führen das ein, was NVIDIA als „KI-nativen Speicher" bezeichnet, über die CMX Context Memory Platform. Durch das Auslagern von KV-Cache auf dedizierten Hochbandbreitenspeicher behauptet das System 5-mal höhere Token pro Sekunde und 5-mal bessere Energieeffizienz als traditionelle Ansätze.
Spectrum-6 SPX-Netzwerk-Racks verbinden alles mit 102,4 Tb/s-Switches mit co-packaged Optics.
Das Token-Ökonomie-Argument
NVIDIA rahmt dies um eine spezifische Marktrealität: Der Token-Verbrauch übersteigt jetzt jährlich 10 Billiarden, und die Verschiebung von Mensch-KI- zu KI-KI-Interaktionen wird dieses Wachstum dramatisch beschleunigen. Moderne agentische Systeme erzeugen massive Reasoning-Token-Volumina und erweitern gleichzeitig die KV-Cache-Anforderungen – genau der Engpass, den diese Architektur adressiert.
Von NVIDIA zitierte Drittanbieter-SemiAnalysis InferenceMax-Benchmarks zeigen, dass aktuelle Blackwell-Systeme bereits 50-mal bessere Leistung pro Watt und 35-mal niedrigere Kosten pro Token im Vergleich zu H200 liefern. Vera Rubin zielt darauf ab, diesen Vorsprung zu erweitern.
Thermisches und Energie-Engineering
Die dritte Generation der MGX-Rack-Architektur führt Intelligent Power Smoothing mit 6-mal mehr Energiespeicherung auf Rack-Ebene (400 Joule pro GPU) als frühere Generationen ein. Dies reduziert Spitzenstromanforderungen um bis zu 25 % und eliminiert den Bedarf an massiven Batteriepacks.
Alle Racks arbeiten bei 45 °C Warmwasser-Einlasstemperaturen, was es Rechenzentren in vielen Klimazonen ermöglicht, Umgebungsluftkühlung zu verwenden. NVIDIA behauptet, dass dies genug Strom freisetzt, um 10 % mehr Racks im selben Anlagenleistungsbudget hinzuzufügen.
Ausblick
Über die anfängliche POD-Konfiguration hinaus hat NVIDIA eine Vorschau auf Vera Rubin Ultra NVL576 gegeben, der auf 576 GPUs über acht Racks skaliert, sowie die nächste Generation der Kyber-Architektur, die NVL1152 mit 144 GPUs pro Rack anstrebt. Die Roadmap deutet darauf hin, dass NVIDIA Multi-Rack-NVLink-Domänen als die Zukunft der KI-Infrastruktur sieht – nicht nur größere GPUs, sondern grundlegend unterschiedliche Systemarchitekturen.
Für Unternehmen, die KI-Infrastrukturinvestitionen planen, ist die Botschaft klar: Die Ökonomie des KI-Computing verlagert sich von der Chip-Ebene zur Facility-Level-Optimierung. Diejenigen, die jetzt Rechenzentren aufbauen, stehen vor der Wahl zwischen aktuellen Systemen und dem Warten auf die Verfügbarkeit von Vera Rubin Ende 2026.
Bildquelle: Shutterstock- nvidia
- KI-Infrastruktur
- vera rubin
- Rechenzentren
- Unternehmens-KI


