banner
Heim / Blog / Der KI-Hype wird die GPU-Preise für Rechenzentren in die Höhe treiben
Blog

Der KI-Hype wird die GPU-Preise für Rechenzentren in die Höhe treiben

Mar 06, 2023Mar 06, 2023

AKTUALISIERTWie viele Hersteller von HPC- und KI-Systemen sind wir gespannt, wie das hybride CPU-GPU-System „Antares“ Instinct MI300A von AMD in Bezug auf Leistung und Preis aussehen könnte.

Und da in ein paar Wochen die Supercomputing-Konferenz ISC 2023 ansteht und Bronis de Supinski, Chief Technology Officer am Lawrence Livermore National Laboratory, auf der Veranstaltung einen Vortrag über das zukünftige Exascale-System „El Capitan“ hält, das das Flaggschiff sein wird Für die MI300A-Variante der Antares-GPUs beschäftigen wir uns damit.

Also haben wir zum Spaß die Trust-Excel-Tabelle herausgeholt und versucht, die Vorschübe und Geschwindigkeiten der MI300- und MI300A-GPUs abzuschätzen, wobei letztere das Herzstück des El Capitan-Systems sein könnte. Ja, das ist vielleicht Unsinn, wenn man bedenkt, dass AMD auf der ISC 2023 und darüber hinaus wahrscheinlich etwas mehr über die MI300-GPU-Serie sprechen wird und wir irgendwann genau wissen werden, wie diese Rechenmaschine aufgebaut ist. Aber eine ganze Reihe Leute fragen uns immer wieder, ob die MI300-Serie mit den Nvidia-GPU-Beschleunigern „Hopper“ H100 und, was vielleicht noch wichtiger ist, mit der Kombination aus der fest mit dem Hopper verbundenen 72-Kern-Arm-CPU „Grace“ konkurrenzfähig sein kann H100-GPU zur Schaffung eines kombinierten Grace-Hopper-Hybrid-CPU-GPU-Komplexes, der mit dem MI300A, der in El Capitan eingesetzt werden soll, und, wie wir glauben, anderen Hybrid-CPU-GPU-Maschinen, auf denen HPC- und KI-Workloads ausgeführt werden, mithalten kann Seite an Seite.

Und angesichts der starken Nachfrage nach GPU-Rechenleistungen, die durch eine Explosion des KI-Trainings für generative KI-Anwendungen auf Basis großer Sprachmodelle angetrieben wird, und AMDs Wunsch, mit seinen GPUs stärker in das KI-Training einzusteigen, gehen wir davon aus, dass die Nachfrage die von Nvidia übertreffen wird Dies bedeutet, dass die GPUs von Nvidia trotz des massiven Vorteils, den der Nvidia AI-Software-Stack gegenüber AMD hat, einige KI-Angebotsgewinne erzielen werden. Die Vorgänger-GPUs „Aldebaran“ haben bereits einige beeindruckende HPC-Designsiege für AMD erzielt, insbesondere im Exascale-System „Frontier“ am Oak Ridge National Laboratory, bei dem vier dieser Dual-Chip-GPUs an eine benutzerdefinierte Epyc-CPU „Trento“ angeschlossen sind, um eine zu schaffen lockerer gekoppelte Hybrid-Rechenmaschine. (Es gibt noch andere.) Und wir glauben, dass die starke Nachfrage nach Nvidia-GPUs für KI-Workloads AMD tatsächlich die Möglichkeit bieten wird, einige Deals zu gewinnen, da die Nachfrage das Angebot übersteigt.

Die Menschen werden heute nicht geduldiger sein, wenn es darum geht, generative KI zu ihren Arbeitslasten hinzuzufügen, als sie es in den späten 1990er und frühen 2000er Jahren waren, um eine Web-Infrastruktur hinzuzufügen, um ihre Anwendungen zu modernisieren und Schnittstellen für sie im Internet bereitzustellen. Der Unterschied besteht dieses Mal darin, dass sich das Rechenzentrum nicht in ein Allzweck-X86-Rechnersubstrat verwandelt, sondern immer mehr zu einem Ökosystem konkurrierender und komplementärer Architekturen wird, die miteinander verwoben sind, um insgesamt das bestmögliche Preis-Leistungs-Verhältnis zu bieten für ein breiteres Spektrum an Arbeitslasten.

Wir wissen noch nicht viel über die MI300-Serie, aber im Januar hat AMD ein wenig über die Geräte gesprochen, die wir hier behandelt haben. Wir haben ein Bild von einem der Geräte und wissen, dass eines davon die 8-fache KI-Leistung und die 5-fache KI-Leistung pro Watt des vorhandenen MI250X-GPU-Beschleunigers haben wird, der im Frontier-System verwendet wird. Wir wissen, dass einer der MI300-Serien über 146 Milliarden Transistoren auf seinen neun Chiplets verfügt. Ein großer Teil dieser Transistoranzahl ist unserer Meinung nach in vier 6-Nanometer-Kacheln implementiert, die die CPU- und GPU-Rechenelemente miteinander verbinden und auf denen auch Infinity Cache eingraviert ist. Es ist schwer zu sagen, wie viele Transistoren dieser Cache verbraucht, aber wir freuen uns darauf, es herauszufinden.

Wir glauben übrigens, dass der MI300A so heißt, um darauf hinzuweisen, dass es sich um eine APU-Version – also eine Kombination aus CPU- und GPU-Kernen in einem einzigen Paket – von AMDs Flaggschiff-Parallel-Rechen-Engine handelt. Dies impliziert, dass es reine GPU-Versionen der Antares-GPU ohne APU geben wird, möglicherweise mit maximal acht GPU-Chiplets auf diesen vier Verbindungs- und Cache-Chips, wie unten im MI300A unserer Meinung nach gezeigt:

Um es in AMDs Sprache von Anfang des Jahres ganz genau zu sagen: Diese 8X- und 5X-Zahl basierte auf Tests für die MI250X-GPU und modellierter Leistung für die GPU-Teile des MI300A-Komplexes. Und um ganz konkret zu sein, hier ist, was AMD sagte: „Messungen von AMD Performance Labs vom 4. Juni 2022 zu aktuellen Spezifikationen und/oder Schätzungen für die geschätzte gelieferte FP8-Gleitkommaleistung mit Struktursparsity, die für AMD Instinct MI300 vs. MI250X FP16 unterstützt wird ( 306,4 geschätzte gelieferte TFLOPS basierend auf 80 % der maximalen theoretischen Gleitkommaleistung. MI300-Leistung basiert auf vorläufigen Schätzungen und Erwartungen. Die endgültige Leistung kann variieren.“

Und um noch genauer zu sein, hier sind die Anmerkungen zu den drei Behauptungen, die AMD bisher bezüglich der MI300-Serie aufgestellt hat:

Wir fragen uns, was mit MI300-002 passiert ist, haben im Internet danach gesucht und konnten es nicht finden.

Basierend auf den oben genannten Daten und der Vermutungsmaschine, die in unseren Gehirnlappen steckt, ist hier unsere Tabelle, die abschätzt, wie die Vorschübe und Geschwindigkeiten des MI300 und des MI300A aussehen könnten, wenn man bedenkt, was AMD bisher gesagt hat, wobei in einiges an Vermutungen gezeigt wird Fette rote Kursivschrift wie üblich.

In einer früheren Version dieser Geschichte gingen wir davon aus, dass sich alle Kommentare von AMD auf den MI300A bezogen, einige jedoch auch auf den MI300. Deshalb haben wir unser Bestes getan, um herauszufinden, wie diese beiden Chipkomplexe aussehen könnten. Wir geben keine Garantien und bieten dies als das Gedankenexperiment an, das es ist.

Wir hatten in unserer früheren Tabelle zu viele Streaming-Prozessoren und Recheneinheiten, aber wir denken, dass das richtig ist. Das tut mir leid. Am Ende haben wir die Sparsity-Matrix-Verarbeitung hinzugefügt, aber vergessen, den 2X-Faktor für diese Verarbeitung herauszunehmen.

Wir glauben, dass der MI300 über acht GPU-Kacheln für insgesamt 440 Recheneinheiten und 28.160 Streaming-Prozessoren verfügt, was eine Spitzenleistung von 3.064 Teraflops bei der FP8- und 3.064 Teraops-Spitzenleistung bei der INT8-Verarbeitung ergibt, die üblicherweise für KI-Inferenz und bei einigen Anwendungen mit FP8-Unterstützung auch für KI verwendet wird Ausbildung. Wir gehen davon aus, dass dieser Chip mit der gleichen Taktrate von 1,7 GHz läuft wie der MI250X, den er ersetzt, und dass er über die doppelte Vektor-FP64- und FP32-Verarbeitungskapazität des MI250X verfügen wird.

Beim MI300A werden zwei der GPU-Chips entfernt, wodurch die Recheneinheiten auf 330 und die Streaming-Prozessoren auf 21.120 reduziert werden. Da wir jedoch glauben, dass Lawrence Livermore bereit war, etwas Wärme zu opfern, um CPU und GPU auf denselben Speicher mit hoher Bandbreite zu bringen, gehen wir davon aus, dass AMD die Taktrate dieser sechs GPUs erhöhen wird, um die Leistung etwas darüber hinaus zu steigern der MI300. Unsere Berechnungen legen nahe, dass 2,32 GHz ausreichen und die 8-fache Leistung und die 5-fache Leistung pro Watt liefern, von denen AMD in seinen Behauptungen gesprochen hat.

So wie Nvidia die Leistung der Matrix-Mathe-Einheiten in den H100-GPUs im Vergleich zu den Vektoreinheiten um ein Vielfaches gesteigert hat, gehen wir davon aus, dass AMD dasselbe mit der MI300A-Hybrid-Rechner-Engine tun wird. Die Vektoreinheiten sehen also möglicherweise nur eine zweifache Verbesserung. Das ist eine andere Art zu sagen, dass viele HPC-Workloads nicht annähernd so stark beschleunigt werden wie KI-Trainings-Workloads, es sei denn und bis sie für die Ausführung auf den Matrix-Mathematikeinheiten optimiert werden.

Reden wir jetzt über Geld.

In unserer Analyse im Dezember 2021, als die MI250X zum ersten Mal nach Oak Ridge geliefert wurden, um die Frontier-Maschine aufzubauen, schätzten wir, dass einer dieser GPU-Motoren einen Listenpreis in der Größenordnung von 14.500 US-Dollar haben könnte, ein paar Riesen mehr als der Nvidias GPU-Beschleuniger „Ampere“ A100 SXM4, der damals für 12.000 US-Dollar verkauft wurde. Im Zuge der H100-Ankündigung im März 2022 schätzten wir, dass es möglich sein könnte, für einen H100 SXM5 der Spitzenklasse (den Sie nicht separat von einem HGX-Systemboard kaufen können) zwischen 19.000 und 30.000 US-Dollar zu verlangen PCI-Express-Versionen der H100-GPUs sind möglicherweise zwischen 15.000 und 24.000 US-Dollar wert. Damals war der Preis des A100 SXM4 aufgrund der steigenden Nachfrage auf rund 15.000 US-Dollar gestiegen. Und noch vor wenigen Wochen wurden die PCI-Express-Versionen des H100 bei eBay für mehr als 40.000 US-Dollar pro Stück versteigert. Was verrückt ist.

Die Situation ist schlimmer als auf dem Gebrauchtwagenmarkt hier in den Vereinigten Staaten, und es handelt sich um eine Art Inflation, die auf zu viel Nachfrage und zu wenig Angebot zurückzuführen ist. Eine Situation, die Anbieter lieben, wenn sie wissen, dass sie ohnehin nicht genügend Einheiten herstellen können. Die Hyperscaler und Cloud-Builder rationieren den Zugriff auf GPUs auf ihre eigenen Entwickler, und wir wären nicht überrascht, wenn es Preiserhöhungen für GPU-Kapazität in der Cloud gäbe.

Wenn es um die FP8-Leistung mit Sparsity geht, liefert der MI300A etwa 3,1 Petaflops theoretische Spitzenleistung, aber im Vergleich zu 128 GB HBM3-Speicher mit vielleicht etwa 5,4 TB/Sek. Bandbreite. Die Nvidia H100 SXM5-Einheit verfügt über 80 GB HBM3-Speicher mit 3 TB/Sek. Bandbreite und wird mit einer Spitzenleistung von 4 Petaflops bei Sparsity bei FP8-Datenauflösung und -verarbeitung bewertet. Das AMD-Gerät hat eine um 25 Prozent geringere Spitzenleistung, verfügt aber über 60 Prozent mehr Speicherkapazität und möglicherweise 80 Prozent mehr Speicherbandbreite, wenn alle acht HBM3-Stacks auf dem Gerät vollständig bestückt werden können. (Das hoffen wir natürlich.) Wir glauben, dass es vielen KI-Shops völlig recht wäre, ein wenig Spitzenleistung für mehr Bandbreite und Speicherkapazität zu opfern, was dazu beiträgt, die tatsächliche KI-Trainingsleistung zu steigern.

Was wir mit Sicherheit sagen können, ist, dass El Capitan bei den MI300A-Rechner-Engines an erster Stelle steht. Um die 2,1-Exaflops-Spitze bei Plain-Vanilla-64-Bit-Gleitkomma mit doppelter Genauigkeit zu durchbrechen, sind 28.600 Sockets erforderlich, und in diesem Fall ist es ein Socket ein Knoten.

Die Cray-Abteilung von Hewlett Packard Enterprise baut die El-Capitan-Maschine und bringt gerne viele Rechen-Engines auf einen Knoten. Das Frontier-System-Blade verfügt beispielsweise über ein Knotenpaar mit jeweils einer Trento-CPU und vier MI250X-GPUs, also insgesamt zehn Geräten und etwa 5.300 Watt. Bei den Slingshot 11-Netzwerkschnittstellenkarten nennen wir es aus Gründen der Argumentation vielleicht 6.000 Watt pro Blade. Wenn es acht MI300As auf einem Blade mit 850 Watt gibt, wären das etwa 6.800 Watt allein für die Rechen-Engines. Unsere Vermutung liegt immer noch innerhalb der Kühlspezifikationen der „Shasta“-Cray-EX-Rahmen. Da es sich um eine wassergekühlte Maschine handelt, gehen wir davon aus, dass acht MI300As mit ihren Slingshot 11-Netzwerkschnittstellenkarten auf das Blade passen. Wir freuen uns darauf, es herauszufinden.

Bei acht MI300A-Geräten pro Blade und 64 Blades pro Schrank, wie oben in der Cray EX-Explosionsansicht gezeigt, sind das 56 Schränke (aufgerundet). Cray hat in der Vergangenheit gerne Maschinen der Leistungsklasse im Bereich von 100 Schränken verkauft und verfügt über Maschinen, die auf 200 Schränke skaliert werden können, sodass Kunden das Gefühl haben, über etwas Spielraum, einschließlich Stauraum, zu verfügen. Wenn El Capitan einen Spitzenwert von 2,3 Exaflops erreicht, sind das 62 Schränke und bei 2,5 Exaflops sind es 67 Schränke. Was die Lagerung betrifft, gehen wir stark davon aus, dass El Capitan etwa 100 Schränke umfassen wird.

Das aktuelle „Sierra“-System, das inzwischen fast fünf Jahre alt ist, weil El Capitan etwa ein Jahr später als geplant auf den Markt kommt (aber vermutlich immer noch innerhalb seines 600-Millionen-Dollar-Budgets), verfügt über 4.320 Knoten mit jeweils zwei Power9-Prozessoren von IBM und vier „Volta“ V100 GPU-Beschleuniger von Nvidia. Das sind insgesamt 17.280 GPUs in Sierra, und wenn unsere Schätzungen zur FP64-Leistung des MI300A richtig sind – und wir sind die Ersten, die zugeben, dass dies nur eine Vermutung ist – dann sind das nur 65 Prozent mehr GPU-Sockel in El Capitan als in Sierra. Allerdings gibt es in jedem El Capitan-Sockel sechs logische GPUs, sodass das eher 171.600 GPUs sind, um 2,1 Exaflops zu liefern. Das wäre eine 16,9-fache höhere FP64-Rohleistung bei einem 4,8-fachen Preisanstieg auf beiden Systemen und einer 9,9-fachen Steigerung der GPU-Parallelität. El Capitan muss mindestens zehnmal mehr Leistung erbringen als Sierra und das in einer thermischen Hülle von weniger als 40 Megawatt. Wenn wir mit all dem Recht haben, dann würde ein El Capitan mit 2,1 Exaflops allein für die Rechenmaschinen etwa 24,3 Megawatt erreichen.

Und als Preisvergleich zu dieser ganzen Sache: Wenn 85 Prozent der Kosten der El Capitan-Maschine auf die CPU-GPU-Rechner-Engines entfallen und es 28.600 davon gibt, dann sind das etwa 17.800 US-Dollar pro Person. Und die Hyperscaler und Cloud-Builder werden auf keinen Fall weniger dafür bezahlen als die US-amerikanischen Nationallabors, die AMDs Vorstoß in die oberen Ränge des HPC im Grunde sponsern. (Das sind viele „Wenns“ und wir wissen es sehr gut.)

In der Vergangenheit haben wir den Listenpreis einer GPU tatsächlich aus den Supercomputing-Angeboten ermittelt, indem wir den tiefen Rabatt des HPC National Lab umgedreht haben. Mit den in Sierra verwendeten Volta V100-Beschleunigern wurden die GPUs beispielsweise für rund 7.500 US-Dollar gelistet, aber für rund 4.000 US-Dollar pro Stück an Lawrence Livermore und Oak Ridge verkauft. Und so könnte der Listenpreis für den MI300A, wenn das alte Rabattniveau vorherrscht, über 33.500 US-Dollar liegen. Wir glauben, dass der Preisnachlass weniger hoch ist, weil AMD der MI300A-Engine viel mehr Rechenleistung hinzugefügt hat und der Preis pro Einheit auch viel niedriger war – der Listenpreis entsprach eher dem Straßenpreis, weil AMD aggressiv vorgehen muss, um Nvidia zu verdrängen.

Denken Sie daran, dass, als der ursprüngliche El Capitan-Vertrag im August 2019 für die Lieferung Ende 2022 und die Annahme bis Ende 2023 angekündigt wurde, eine Maschine mit 1,5 Exaflops Dauerleistung und einem Stromverbrauch von etwa 30 Megawatt angegeben war, nur um das System zu betreiben.

Dies alles lässt uns drei Fragen offen. Erstens: Wie viele MI300A-Geräte kann AMD herstellen? Wenn es viel mehr sind, als für El Capitan vorgesehen sind, kann es den Preis festlegen und alle verkaufen. Und zweitens: Wird AMD sie zu einem aggressiven Preis verkaufen oder auf den Preis drängen, den der Markt ertragen kann?

Es ist nicht schwer, die zweite Frage zu beantworten, oder? Nicht in diesem bullischen GPU-Markt, in dem KI absolut immun gegen eine Rezession sein wird. Sollte es zu einer solchen Rezession kommen, könnte KI die Rezession sogar noch beschleunigen, wenn es ihr zunehmend gelingt, Menschen zu ersetzen. . . . Bisher kam es weder zu einer echten noch zu einer durch KI beschleunigten Rezession.

Die dritte Frage lautet: Wird der MI300 im Wesentlichen den gleichen Preis haben wie der MI300A? Es ist sehr wahrscheinlich.

Mit Highlights, Analysen und Geschichten der Woche direkt von uns in Ihren Posteingang, ohne dass etwas dazwischen liegt. Jetzt abonnieren

AKTUALISIERT