banner
Heim / Nachricht / Intel spielt Hybrid-CPU herunter
Nachricht

Intel spielt Hybrid-CPU herunter

Dec 02, 2023Dec 02, 2023

Als Intel im Februar 2022 sein „Falcon Shores“-Projekt zum Bau einer hybriden CPU-GPU-Rechenmaschine ankündigte, die die unabhängige Skalierung der CPU- und GPU-Kapazität innerhalb eines einzigen Sockels ermöglichte, sah es so aus, als würde sich der Chiphersteller darauf vorbereiten, es mit dem Konkurrenten Nvidia aufzunehmen und AMD geht mit Hybrid-Rechenmotoren voran, die Intel XPUs nennt, AMD APUs nennt und Nvidia nicht wirklich hat, wenn man genau sagen will, was seine „Superchips“ sind und was nicht.

Wie wir damals betonten, ermöglicht dieser „Aurora in a socket“-Ansatz, eine veränderbare Mischung aus CPU- und GPU-Chiplets in einen Xeon SP-Sockel mit buchstäblich demselben Hauptspeicher und einer Verbindung mit sehr geringer Latenz zwischen den Chiplets zu stecken, komplexere Prozesse KI-Inferenz als die AMX-Matrix-Mathe-Einheit in einem eine separate GPU von Nvidia oder AMD.

Bei der Ankündigung von Raja Koduri, General Manager des Geschäftsbereichs Accelerated Computing Systems and Graphics bei Intel – der eingestellt wurde, nachdem Koduri Intel im März dieses Jahres verlassen hatte – versprach Intel, dass Falcon Shores mehr als das Fünffache besser liefern würde Leistung pro Watt, mehr als 5-mal höhere Rechendichte in einem X86-Sockel und mehr als 5-mal höhere Speicherbandbreite und -kapazität mit dem sogenannten „gemeinsam genutzten Speicher mit extremer Bandbreite“. Wir gehen davon aus, dass diese Zahlen mit einem „Ice Lake“-Xeon-SP-Serversockel verglichen wurden, und beides waren Top-Teile.

Falcon Shores war für 2024 geplant und es wurde allgemein erwartet, dass es direkt an die gleiche „Mountain Stream“-Serverplattform angeschlossen werden würde, die auch die zukünftigen „Granite Rapids“-Xeon-SPs verwenden würden. Und wir vermuteten, dass Intel etwas Verrücktes tun könnte, etwa der GPU eine Emulationsschicht zu geben, die sie wie eine große, fette AVX-512-Vektor-Mathematikeinheit aussehen lässt, um die Programmierung zu vereinfachen. (Oder wahrscheinlicher eine AMX-Einheit, jetzt, wo wir etwas genauer darüber nachdenken.)

Im März dieses Jahres, als Koduri Intel verließ, begann das Unternehmen einen Rückzieher zu machen, indem es nicht nur scheinbar fünf verschiedene CPU-GPU-Chiplet-Mischungen in einem Xeon SP-Sockel anbot, sondern auch den „Rialto Bridge“-Kicker abschaffte GPU der Max-Serie „Ponte Vecchio“, die den größten Teil der Spitzenleistung von 2 Exaflops im Supercomputer „Aurora“ im Argonne National Laboratory leisten wird. Damals gab es Gerüchte, dass die ersten Falcon Shores-Geräte im Jahr 2025 auf den Markt kommen würden, und zwar nur mit GPU-Chiplets, was das Gerät im Grunde zu einem diskreten GPU-Ersatz für Ponte Vecchio anstelle der Rialtobrücke macht. Die Rialto-Brücke wurde geschlossen, weil Intel in seinen Roadmaps auf einen zweijährigen GPU-Takt umstellen wollte – und das ist auch vernünftigerweise so, weil Nvidia und AMD genau das tun.

Auf der jüngsten Supercomputing-Konferenz ISC23 in Hamburg stellte Intel seine Absichten in Bezug auf Falcon Shores klar und bestätigte, dass es sich bei diesem Gerät nicht nur um eine reine GPU-Rechenmaschine handeln würde, sondern auch, dass die Zeit für Hybrid-XPUs noch nicht reif sei.

„Mein vorheriger Vorstoß und meine Betonung der Integration von CPU und GPU in eine XPU war verfrüht“, erklärte Jeff McVeigh, General Manager der Super Compute Group, in Briefings für die ISC23-Veranstaltung. Und ehrlich gesagt übernimmt McVeigh wahrscheinlich die Verantwortung für etwas, das in Wirklichkeit eine Entscheidung von Koduri war, und vielleicht sogar unter Beteiligung von Jim Keller, der vor mehr als zwei Jahren das Unternehmen verließ, um Chief Executive Officer und jetzt Chief Technology Officer des KI-Startups Tenstorrent zu werden.

„Und der Grund dafür ist“, fuhr McVeigh in seiner Erklärung fort, „wir haben das Gefühl, dass wir uns in einem viel dynamischeren Markt befinden, als wir noch vor einem Jahr dachten – all die Innovationen rund um generative KI-Modelle für große Sprachen. Vieles davon war zwar schon der Fall.“ Im kommerziellen Bereich stellen wir fest, dass dies auch in wissenschaftlichen Unternehmungen viel weiter verbreitet ist. Und wenn Sie sich in diesem dynamischen Markt befinden, in dem sich die Arbeitslasten schnell ändern, möchten Sie sich wirklich nicht dazu zwingen, den Weg einer festen CPU einzuschlagen Verhältnis von GPU zu GPU. Sie möchten nicht die Anbieter oder gar die Architekturen festlegen, die zwischen Reifer Markt. Wenn die Workloads festgelegt sind, wenn man sich wirklich darüber im Klaren ist, dass sie sich nicht dramatisch ändern werden, ist die Integration großartig. Wir haben die Integration schon viele, viele Male durchgeführt. Das hilft bei den Kosten, es senkt die Kosten Leistung. Aber Sie sind festgelegt. Sie sind festgelegt auf die Lieferanten dieser beiden Komponenten, Sie sind festgelegt auf deren Konfiguration. Und angesichts der heutigen Marktlage haben wir einfach das Gefühl, dass es nicht an der Zeit ist, sich zu integrieren.“

Angesichts der Tatsache, dass Nvidia eine ziemlich große Anzahl von „Grace“-CPU- und „Hopper“-GPU-Superchips verkaufen wird und AMD mindestens einen großen Kunden (Lawrence Livermore National Laboratory) hat, der viele seiner „Antares“ Instinct MI300A-Hybrid-CPU-GPU-Rechner kauft Wir sind sicher, dass Nvidia und AMD dieser Einschätzung überhaupt nicht zustimmen würden.

Vielleicht ist eine solche XPU-Integration nicht das Richtige für Intel, das die Kosten senken und sich darauf konzentrieren muss, in seinem Kernmarkt für Server-CPUs Geld zu verdienen, wie es seit dem Itanium-Debakel Ende der 1990er und Anfang der 2000er Jahre nicht mehr darauf musste. Oder noch genauer: vielleicht nicht für Intel-CPU-Kerne und Intel-GPU-Kerne. Vielleicht wären Intel-CPU-Kerne und Nvidia-GPU-Kerne für den Markt schmackhafter? Bisher hatte Nvidia kein Server-CPU-Geschäft, daher ist vielleicht die Zeit für diese mögliche Partnerschaft vorbei, die möglicherweise dazu geführt hätte, dass NVLink-Ports zu „Sapphire Rapids“ und einem riesigen HBM3-Komplex hinzugefügt wurden.

Auf jeden Fall ist dies nicht das erste Mal, dass Intel in seinen Xeon-Serverchips über ein „Frankenchip“-Design mit zusätzlicher Rechenleistung außerhalb der X86-Kerne nachdenkt. Und es ist auch nicht das erste Mal, dass das Unternehmen von diesen Bemühungen abrückt.

Intel gab bereits im Juni 2014 bekannt, dass ein Hybrid-CPU-FPGA-Gerät in der Entwicklung sei, und stellte bereits im März 2016 auf dem Open Compute Summit einen hybriden Broadwell-Arria 10 GX-Prototyp mit 15 Kernen vor. Im Mai 2018 wurde die Hybrid-CPU vorgestellt -Das FPGA-Produkt wurde offiziell eingeführt, die CPU-Seite wurde auf einen 20-Kern-Skylake-Chiplet aufgerüstet und der Arria 10 GX war die FPGA-Seite des Pakets. Intel verkauft natürlich seit vielen, vielen Jahren Intel Xeon E3-Prozessoren mit CPUs und GPUs auf einem einzigen Chip, spricht aber selten über die latenten – und nicht nur kostengünstigen, sondern im Wesentlichen kostenlosen – Gleitkomma-Mathematikfunktionen, die dieser integrierten GPU innewohnen. (Wir erinnern die Leute häufig daran, wie wir es hier getan haben.) Intel hat vor vielen Jahren aufgehört, über das Hybrid-CPU-FPGA-Design zu reden, und nie über seine Low-End-CPU-GPU-Möglichkeiten gesprochen, geschweige denn darüber, wie es so etwas bewerkstelligen könnte ursprünglich für 2024 geplante Falcon Shores neben den Granite Rapids Xeon SPs.

Jetzt ist die Multi-Chip-GPU von Falcon Shores für 2025 geplant, gepaart mit dem Xeon SP-Kicker „Clearwater Forest“ von Granite Rapids.

Apropos Frankenchips: McVeigh sagte in seiner Roadmap-Präsentation beim ISC23-Briefing etwas sehr Interessantes. Zunächst die Roadmap:

Seit Mai 2022 liefert Intel die Gaudi2-Matrix-Mathe-Engines aus, die aus der 2-Milliarden-Dollar-Übernahme von Habana Labs im Dezember 2019 hervorgegangen sind. Und der Gaudi3-Nachfolger, über den wir fast nichts wissen und der im März dieses Jahres auf den Markt kam, Es sieht so aus, als würde es Anfang 2024 kommen.

Danach und an dem Punkt, an dem die Multi-Chip-GPU von Falcon Shores im Jahr 2025 auf der Roadmap erscheint, verschwindet die Linie, die Gaudi von den GPUs Ponte Vecchio und Falcon Shores trennt. Wenn Sie einen NNP mit riesigen Mengen an Matrix-Mathematik mit gemischter Präzision und eine GPU mit riesigen Mengen an Matrix-Mathematik mit gemischter Präzision haben, brauchen Sie vielleicht kein Gaudi4, wenn Sie sich auf einen Falcon Shores verlassen können, der möglicherweise über die gleiche Leistung verfügt. Vor allem, wenn man die drastischen Kosten senken muss, wie Intel es tut, um seine Ziele zu erreichen, die Kosten im Jahr 2023 um 3 Milliarden US-Dollar zu senken und in den Jahren 2024 und 2025 weitere 5 bis 7 Milliarden US-Dollar an Kosten zu senken.

McVeigh sagte, dass Falcon Shores sowohl auf HPC- als auch auf KI-Workloads ausgerichtet sei, auf HBM3-Speicher aufgerüstet werde und „das Beste aus unseren Gaudi-Produkten vereinen würde, einschließlich Standard-Ethernet-Switching“ und „auf Skalierung ausgelegte E/A“.

Bei diesem I/O sieht es so aus, als würde es CXL über PCI-Express sein, das die CPUs mit den Falcon Shores-GPUs verbindet, aber wenn wir das richtig lesen, wird es eine verbesserte Version der von Habana Labs erstellten Ethernet-Fabric verwenden, um die GPUs miteinander zu vernetzen. (Wir sind rätselhaft, warum dies nicht alles PCI-Express 6.0-Switching sein wird, aber andererseits wird dies aufgrund der PCI-Express-Kabellängen und der relativ geringen Anzahl von Ports auf PCI-Express auf einige Racks beschränkt sein. )

Der Gaudi1-Chip könnte auf 128 Geräte skaliert werden, die mit dieser Ethernet-Fabric unter RoCE verbunden sind. Jeder Gaudi1 verfügte über zehn 100-Gbit/s-Ethernet-Ports, und Sie konnten entweder vier oder acht Geräte in einem Knoten unterbringen und auf entweder 32 Knoten oder 16 Knoten skalieren, um 128 vollständig miteinander verbundene Knoten zu erreichen. Das Gaudi2-Gerät lässt sich auf 24 integrierte Ethernet-Ports mit 100 Gbit/s skalieren, die acht Geräte in einer umfassenden, nicht blockierenden Topologie miteinander verbinden:

Um das Acht-Wege-Gaudi2-System zu erstellen, werden 21 der 24 Ports an jedem Gerät verwendet, um die All-to-All-Verbindung zwischen den Matrix-Engines herzustellen. Drei Ports von jedem Gerät werden gestaffelt zu insgesamt sechs QSFP-DD-Ports zusammengefasst, die aus dem Gaudi2-Chassis kommen, und stellen die Verbindung zur Skalierung über 16 oder 32 Gaudi-Gehäuse bereit, was, wie gesagt, mit regulären Ethernet-Switches erfolgt .

Es ist nicht schwer, sich vorzustellen, dass diese Gaudi-Ethernet-Fabric auf 400-Gbit/s- oder vielleicht sogar 800-Gbit/s-Ports aufgerüstet wird, die von der Falcon Shores-GPU ausgehen und ähnlich schnelle Ethernet-Switches verwenden, um noch mehr Geräte miteinander zu verbinden. Umso bedauerlicher ist es, dass Intel kein Ethernet-Switching-Geschäft mehr hat, da das Unternehmen seine Tofino-Produktlinie aus der Übernahme von Barefoot Networks eingestellt hat. Kunden müssen sich für Ethernet-Switching auf Basis von Broadcom-, Nvidia-, Marvell- oder Cisco Systems-Silizium entscheiden.

Es sieht auch so aus, als würde Intel die systolischen Arrays – die wir Matrix-Mathe-Engines nennen – vom Gaudi-Gerät übernehmen und sie anstelle der Xe-Matrix-Mathe-Engines verwenden, die beim Ponte-Vecchio-Design verwendet werden. Verlassen Sie sich also nicht darauf, dass Gaudi 4 ein eigenständiges Produkt ist.

So viel zu diesem 2,35 Milliarden US-Dollar teuren NNP-Experiment, das aus den Übernahmen von Nervana Systems und Habana Labs entstand. Der zukünftige NNP ist eine GPU bei Intel. Und die einzigen Unternehmen, die Gaudi2 und Gaudi3 kaufen werden, sind diejenigen, die verzweifelt nach Matrix-Mathe-Funktionen suchen und sich auch für Intels zukünftige Falcon Shores-GPUs entschieden haben.

Mit Highlights, Analysen und Geschichten der Woche direkt von uns in Ihren Posteingang, ohne dass etwas dazwischen liegt. Jetzt abonnieren