Transkript Podcast “Ethernet im Cloud-Netzwerk” - 20250718
Andreas Maurer: Hallo und herzlich willkommen bei Inside IONOS. Wenn Sie diesen Podcast gerade hören, sind Sie wahrscheinlich mit dem Internet verbunden über Mobilfunk oder zu Hause per WLAN oder Kabel, also über ein Netzwerk. Und natürlich spielt das Thema Netzwerk bei einem Cloudanbieter wie IONOS ebenfalls eine sehr wichtige Rolle, und darum soll es heute gehen. Und wie immer habe ich mir dazu einen kompetenten Gast eingeladen: Sebastian Hohwieler, Director Network Infrastructure bei Jonas. Sebastian, sag noch mal kurz, was dein Job ist.
Sebastian Hohwieler: Hallo Andreas, meine Teams kümmern sich im Netzwerk darum, dass Rechenzentren und auch Offices arbeiten können. Wir stellen die grundlegende Infrastruktur bereit: Außenanbindung, Internetanbindung, interne Verbindung zwischen den Rechenzentren, die Managementnetze in den Rechenzentren, also alles, damit die anderen Netzwerkteams überhaupt arbeiten können.
Andreas Maurer: Früher war ja ein Netzwerk schon was, wo man eigentlich in Unternehmen drüber geredet hat. Heute hat fast jeder irgendeine Art von Netzwerk, mindestens ein ganzes WLAN bei sich zu Hause. Trotzdem gibt's ja sicherlich Unterschiede zwischen so einem privaten Netzwerk, das ich für meine Wohnung oder für mein Homeoffice betreibe, und einem Netzwerk, das wir in einem großen Rechenzentrum im Bereich Webhosting oder im Bereich Cloud haben. Was sind denn da so die Hauptunterschiede?
Sebastian Hohwieler: Es gibt eigentlich zwei Hauptunterschiede. Der eine Unterschied ist einfach die Skalierung. Wir haben Rechenzentren, in denen 20, 30.000 Server an das Netzwerk angebunden sind. Zu Hause hat man normalerweise maximal 20. Und der andere Hauptunterschied ist der strukturelle Aufbau. Wir können uns nicht erlauben, dass in den Rechenzentren der Netzwerkdienst ausfällt. Netzwerk muss verfügbar sein. Sobald das Netzwerk, vor allem auch die Außenanbindung, eine Störung hat, ist das Rechenzentrum offline und damit sind auch unsere Kunden offline, und das wollen wir natürlich verhindern. Deswegen sind Netze in Rechenzentren sehr redundant aufgebaut, hochverfügbar.
Andreas Maurer: Jetzt machen wir das ja schon seit vielen Jahren. Vor 30 Jahren ist Schlund und Partner gegründet worden, so die Urzelle von IONOS heute, die damals eben Webhosting gemacht hat. Seit einigen Jahren machen wir jetzt auch richtige sogenannte Enterprise Cloud Cloud Infrastructure. Was gibt's da jetzt noch mal auf dieser größeren Ebene für Unterschiede?
Sebastian Hohwieler: Heute in modernen Infrastrukturen sind die Netze kaum noch unterschiedlich. Wir haben für beide Produkte oder für beide Plattformen eine sogenannte IP Fabric, und das bedeutet, dass ich bis runter zum Access Switch oder sogar zum Host Routing Protokolle benutze. Das ist kann man vergleichen, dass wir das Internet in klein im Rechenzentrum nachgebaut haben. Früher gab es sehr starke Layer 2 Strukturen. Das ist eher das, was man kennt. Da hat man einen Router wie zu Hause die Fritzbox, natürlich in groß, und hinten dran hängen mehrere Switche, die dann dieses eine Netz an alle Server verteilen. Und von der Struktur kommt man, weil die viele Nachteile hat, immer stärker weg und baut es eben auf sogenannte Fabrics. Die Fabrics haben auch den Vorteil, dass sie sehr starken Fokus auf sogenannten Ost-West-Traffic haben. Das bedeutet, dass sich die Clients innerhalb vom Rechenzentrum heute sehr viel stärker miteinander unterhalten wie früher. Früher war es notwendig, dass ein Server, z.B. ein Dedicated Server, den man gemietet hat, mit dem Internet verbunden sein musste. Der Kunde hat den Server gemietet, hat da eine Webseite drauf betrieben, und dann sind halt von außen Anfragen reingekommen, die wurden beantwortet. Heute, gerade im Cloud-Umfeld, hat man sehr stark verteilte Infrastrukturen oder Applikationen laufen. Das heißt, um eine Applikation darzustellen, brauche ich sehr viele Server, die sich untereinander unterhalten. Und dadurch ist der Traffic innerhalb vom Rechenzentrum immer wichtiger, und das können die Fabrics sehr gut abbilden.
Andreas Maurer: Und dabei kommen ja verschiedene sogenannte Protokolle, also quasi Standards, so eine Art Netzwerksprache, kann man glaube ich sagen, zum Einsatz. Und in der Cloud war so ein Standard, der sich die letzten Jahre etabliert hat, das sogenannte InfiniBand. Was hat's damit genau auf sich?
Sebastian Hohwieler: InfiniBand ist ein Netzwerkprotokoll oder eine Netzwerkarchitektur, die einen sehr starken Fokus auf Storage-Netze hat. Das heißt, es geht darum, möglichst schnell verteilte Speicher ansprechen zu können. Das braucht man beispielsweise sehr stark für Künstliche-Intelligenz-Cluster, die heute sehr stark aufgebaut werden. Da werden sehr viele Daten zwischen gleichen oder zwischen vergleichbaren Servern auf einer Ebene hin und her transportiert. Oder man benutzt es auch, wir haben es in der Cloud dazu benutzt, z.B. um die Festplatten von VMs – virtuellen Maschinen, Entschuldigung – auf dezentralen Storage zu legen. InfiniBand hat also einen sehr starken Fokus darauf, Storage- oder Speicherzugriffe zu ermöglichen. Beim Speicherzugriff ist es einfach sehr wichtig, dass man keinen Paketverlust hat, keine Unterschiede in der Latenz. Die Latenz ist, wie lange ein Paket von Client zu Server und wieder zurückbraucht. Das muss alles sehr gleichmäßig, sehr gesittet ablaufen, damit es da keine Störung gibt. Nichts Schlimmeres, als wenn ich versuche, ein Bild von meiner Kamera auf dem Server zu speichern, und nachher fehlt die Hälfte von diesem Bild. Das wäre schwierig. In dem normalen Netz zu Hause benutzt man Ethernet als Gegen-Technologie. Ethernet kommt aus einer ganz anderen Zeit und auch mit einem ganz anderen Fokus. Ethernet war darauf ausgelegt, günstig Netzwerkverbindungen zu ermöglichen und auch über weite Strecken hinweg. Das kann InfiniBand zum Beispiel nicht. Bei InfiniBand habe ich Paketlaufzeitbeschränkungen, eben um diese Verlustfreiheit zu garantieren. Daher kann ich einen InfiniBand-Cluster effektiv innerhalb eines Raums in dem Rechenzentrum betreiben, vielleicht auch zwischen zwei Räumen, zwischen drei Räumen. Ich kann aber den gleichen Cluster nicht in ein anderes Rechenzentrum ziehen. Das geht, es gibt Technologien dazu, aber das wird dann sehr teuer.
Andreas Maurer: Bevor wir noch mal auf die Technologie tiefer eingehen, vielleicht noch mal einen Schritt zurück. Du hast es eben gesagt, InfiniBand wird vor allen Dingen für die Kommunikation mit Speichersystemen genutzt. Zum Verständnis muss man, glaube ich, noch mal sagen, dass auch da die Cloud sich so ein bisschen von dem Rechner, den ich zu Hause oder im Büro stehen habe, unterscheidet. Denn ich habe hier ein Notebook, da ist eine Festplatte drin oder beziehungsweise jetzt eine SSD. Ich habe tatsächlich in meinem Homeoffice auch noch einen kleinen NAS stehen, Netzwerkspeicher. Das ist aber dann wahrscheinlich schon so der nächste Level, aber typischerweise habe ich eben den Speicher in meinem Computer eingebaut, und das ist in der Cloud ja ein bisschen anders, oder?
Sebastian Hohwieler: Genau. In der Cloud hat man normalerweise Server, die spezialisiert sind auf Prozessorleistung und RAM, sogenannte Computes. Also da findet die Berechnung statt, darauf läuft die virtuelle Maschine des Kunden. Und der Speicher von dieser VM oder von dieser virtuellen Maschine, die Festplatte dieser virtuellen Maschine, die liegt im Netzwerk. Das bedeutet wirklich, die liegt im Netzwerk, weil die auf mehrere Server, sogenannte Storage Server, verteilt ist. Was den Vorteil hat, wenn einer dieser Storage Server kaputt geht, was hardwareseitig beispielsweise immer mal passieren kann, der Kunde keinen Datenverlust erleidet. Wenn deine Festplatte in deinem Notebook kaputt geht oder die NVME in deinem Notebook kaputt geht, sind die Daten weg. Das will man natürlich in dem Cloud-Umfeld absolut vermeiden. Der zweite Vorteil ist: Dadurch, dass der Speicher oder die Festplatte dieser virtuellen Maschine nicht lokal liegt, kann ich diese virtuelle Maschine relativ einfach auch auf einen anderen Compute, also auf einen anderen reinen Berechnungsserver, umziehen, ohne dass der Kunde wirklich Einschränkungen dadurch hat. Da geht's mal vielleicht eine Sekunde kurz langsamer, aber dann läuft die VM einfach weiter. Und so kann ich auch beispielsweise einen Compute mal warten, neu starten, Patches einspielen, einen RAM-Riegel tauschen, wenn er kaputt ist. Also ich kann relativ leicht die Hardware aus dem Betrieb nehmen, ohne dass es an die Verfügbarkeit des Kunden geht.
Andreas Maurer: In unserem neuen Rechenzentrum, das wir jetzt gerade in Frankfurt aufbauen und das in Kürze den Betrieb aufnimmt, da ersetzen wir jetzt InfiniBand aber gerade durch eine andere Technik. Bevor wir drauf kommen, was das ist, wo es ganz spannend wird, vielleicht noch mal die Frage: Du hast eben die Vorteile geschildert, aber InfiniBand hat offensichtlich ja auch Nachteile, wenn wir das ersetzen. Was, warum, warum gucken wir jetzt nach was anderem?
Sebastian Hohwieler: Also InfiniBand hat eben für die Storage-Zugriffe sehr große Vorteile. Unser Cloud-Netzwerk nutzt das InfiniBand aber auch, um den Traffic, also die Daten der Kunden, zu transportieren. Und dazu mussten wir selber Treiber schreiben, die ermöglicht haben, IP, also das Internetprotokoll, mit dem das ganze Internet funktioniert, auf InfiniBand zum Laufen zu bekommen. Das ist der eine große Haken. Und der andere Haken ist, um aus diesem InfiniBand-Netzwerk innerhalb unserer Cloud-Plattform nach außen zu kommunizieren, mussten wir immer eine Übersetzung durchführen von InfiniBand auf Ethernet, weil das ganze Internet auf IP basiert und unter IP nun mal Ethernet liegt. Und um das machen zu können, haben wir spezielle Hosts selber gebaut, die auf einer Seite ein Bein im InfiniBand-Netz hatten und auf der anderen Seite ein Bein im Ethernet-Netz. Das andere Thema ist: InfiniBand ist in den letzten Jahren sehr erfolgreich geworden, hauptsächlich, weil es sehr stark in dem Künstliche-Intelligenz-Umfeld nachgefragt wird. Und diese große Nachfrage hat dazu geführt, dass beispielsweise Lieferzeiten für neue InfiniBand-Geräte relativ hoch sind und auch die Preise relativ hoch sind im Vergleich zu Ethernet. Auf der anderen Seite ist und bleibt InfiniBand eigentlich ein Nischenprodukt. Das gibt's ja für spezielle Anwendungen, da ist es super, da ist es drauf spezialisiert. Aber das Ethernet ist einfach überall. Und damit habe ich zum Beispiel auch den Vorteil, wenn ich einen Spezialisten brauche, finde ich den sehr viel leichter, wenn der Ethernet können muss, weil den einfach jede Firma braucht oder jede IT-Firma benötigt, wie jemanden, der sich wirklich mit InfiniBand auskennt, weil das einfach lange nicht so stark verbreitet ist.
Andreas Maurer: Jetzt ist es schon so ein bisschen durchgeklungen. Ich habe gesagt, wir ersetzen InfiniBand durch eine andere Technologie, und Wunder, die andere Technologie ist die mittlerweile fast oder über 50 Jahre alte Ethernet-Technologie. Du hast eben groß die Vorteile von InfiniBand geschildert. Warum geht das auf einmal? Vor 20 Jahren wäre das nicht gegangen und auch vor 10 Jahren wäre das wahrscheinlich sehr schwierig geworden.
Sebastian Hohwieler: Ethernet bietet keinerlei Schutz vor Paketverlusten. Ethernet bietet keinerlei Schutz vor unterschiedlichen Latenzen. Darum muss sich die Applikation selber kümmern. Und auf der Applikationsseite hat sich da in den letzten Jahren ein Protokoll durchgesetzt, das nennt sich RoCE. Für die, die es kennen oder schon mal gehört haben. Das steht für RDMA over Converged Ethernet, während RDMA für Remote Direct Memory Access steht, also effektiv direkten Zugriff auf Speicher über das Netzwerk. Und RDMA ist auch die Technologie, die InfiniBand einsetzt. Das heißt, im InfiniBand kann der Compute Node, den wir vorhin angesprochen haben, direkt auf den Speicher auf den Storage Nodes zugreifen, ohne den kompletten Netzwerk-Stack durchlaufen zu müssen. Und das wurde eben jetzt mit RoCE auch auf Ethernet konvertiert, und wir haben Tests gefahren, sehr ausführliche Tests, und haben maximal ein zwei, drei Prozent Leistungseinbußen gesehen im Vergleich, wo man wirklich sagt, okay, was bekomme ich durch die Leitung durch? Das ist also ein kleiner Nachteil. Der große Vorteil für uns ist, dass wir einfach deutlich weiter skalieren können. Also, wir können deutlich größere Cluster bauen. Wir können diese Cluster auch problemlos über das gesamte Rechenzentrum verteilen und unterliegen nicht mehr den Längenrestriktionen von InfiniBand und sind einfach in einem sehr viel standardisierteren Umfeld unterwegs.
Andreas Maurer: Und du hast gesagt, das Internet an sich spricht ja auch Ethernet, das heißt, da entfällt auch ein Übersetzungsschritt.
Sebastian Hohwieler: Genau, der Übersetzungsschritt fällt komplett raus. Wir brauchen auch keine selbstgeschriebenen Treiber mehr, die IP über InfiniBand transportieren. Das macht einfach den kompletten Technologie-Aufbau deutlich einfacher. Wir können direkt das nutzen, was im Linux Kernel einfach verfügbar ist.
Andreas Maurer: Wenn wir jetzt so ein neues Rechenzentrum aufbauen und so eine Technologie einführen, was bedeutet das jetzt für euch konkret für einen Aufwand? Wie muss man sich das in der Praxis vorstellen?
Sebastian Hohwieler: Wir haben damit vor zwei Jahren ungefähr angefangen, uns das genauer anzugucken. Mussten dann erstmal rausfinden, okay, funktioniert RoCE überhaupt? Also haben wir uns mehrere Geräte gekauft, haben die so verbunden, wie man so eine Fabric aufbaut, haben das angeschlossen und mussten dann erstmal rausfinden, na ja, funktioniert das? Was passiert, wenn die Leitungen voll sind? Bekomme ich plötzlich Probleme, dass das funktioniert eine halbe Stunde und dann fällt's aus? Also solche Dinge. Wir haben gleichzeitig mit der Einführung auch noch ein Open Source Betriebssystem auf den Netzwerkkomponenten mit eingeführt, um da unabhängiger von den großen Herstellern zu werden. Das heißt, das mussten wir auch erstmal lernen, ein komplett neues Betriebssystem, wie funktioniert das, welche wie muss ich das konfigurieren? Wie funktioniert da eine Automatisierung drauf? Also, wir haben damit einem relativ kleinen Team aus vier Spezialisten wirklich für anderthalb Jahre sehr tiefe Forschungsarbeit betrieben und mussten dann den Kollegen, die den Cloud-Technologie-Stack – also die Storage-Treiber und eben auch die Übersetzungstreiber zwischen IP und InfiniBand – geschrieben haben, klarmachen: Okay, jetzt seid ihr dran. Jetzt müsst ihr schauen, ob ihr euren Stack auf Ethernet zum Laufen bekommt. Und auch da läuft man immer wieder in kleinere Probleme, die gelöst werden wollen, so dass wir dann eine heiße Phase von drei, vier Monaten hatten, in der bis zu 20, 25 Leute an dem Projekt gearbeitet haben, um das erfolgreich umzusetzen.
Andreas Maurer: Jetzt haben wir ja neun Cloud-Rechenzentren, die schon im Betrieb sind, also insgesamt 30 bei IONOS, über 30, aber bei neun, in denen unsere Cloud-Infrastrukturplattform läuft. Wie sieht's denn da aus? Da läuft jetzt InfiniBand als Standard. Wird das irgendwann auch ersetzt werden, oder fährt man diese Technologien jetzt parallel?
Sebastian Hohwieler: Vorerst werden wir die Technologien parallel fahren. Die Hardware ist da, die funktioniert, ist leistungsfähig, und die Umstellung auf Ethernet bedeutet, wir müssen den kompletten Netzwerk-Stack unten drunter austauschen. Was wir auf jeden Fall tun werden, ist neu aufgebaute oder neue Lokationen, wenn wir welche aufbauen, die werden auf Ethernet aufgebaut. Migration wird stattfinden, wenn notwendig. Also, wenn die Netzwerkinfrastruktur in der Lokation so veraltet ist, dass man sagt, okay, wir müssen die austauschen, werden wir nicht mehr gegen InfiniBand austauschen, sondern gegen Ethernet. Und auch wenn wir Skalierungslimits erreichen, also wenn wir feststellen, okay, wir können das InfiniBand aus den vorher genannten Gründen nicht mehr wachsen lassen, wir müssen neue Cluster aufbauen, wird auch dieses auf Ethernet laufen.
Andreas Maurer: Zum Schluss vielleicht noch mal ein bisschen der Blick in die Zukunft. Was eben schon gesprochen: Das Thema KI-Hype hat mit dafür gesorgt, dass die InfiniBand-Hardware teilweise knapp geworden ist. Vor einigen Tagen haben wir bekannt gegeben, dass IONOS sich mit Partnern um eine sogenannte AI Gigafactory bewerben will, die ja von der Europäischen Union gefördert werden sollen. Das heißt, da reden wir wirklich über große Rechenzentren mit 10 bis 100 Tausenden von sogenannten GPUs, Grafikkarten, die man für KI-Anwendungen braucht. Was werden diese neuen Technologien, was wird die KI für das Thema Netzwerk in Zukunft bedeuten?
Sebastian Hohwieler: Das Thema KI bedeutet fürs Netzwerk in erster Linie einen massiven Anstieg der Bandbreiten. Produkte, die wir vor fünf, sechs Jahren entwickelt haben, beispielsweise auch der Shared Hosting Stack, funktionieren wunderbar mit 10 Gigabit, 15 Gigabit Übertragungsbandbreite, also 10 Gigabit zum einzelnen Server runter. Im Netzwerk haben wir schon höhere Bandbreiten, weil sich da der Traffic kumuliert, aber im Server Access waren 10 Gigabit für ein Shared Hosting Cluster vollkommen ausreichend. Im Vergleich dazu sind das ungefähr 10 Glasfaser-Internetanschlüsse zu Hause oder 100 100-Mbit/s-Anschlüsse, die parallel eben einen Server versorgen – natürlich auch für internen Traffic, nicht nur für Internet. In der Cloud bauen wir gerade 200 Gigabit Ethernet auf, also schon die 20-fache Bandbreite. Für AI ist aber auch schon 400 und 800 Gigabit lieferbar. 1,6 Terabit, dann also 1600 Gigabit für den einzelnen Server, befindet sich gerade in der Entwicklung.
Andreas Maurer: Das heißt, komme ich da jetzt mit so einer Ethernet-Technik auch weiter, oder brauche ich InfiniBand, oder wird es da vielleicht ganz andere Standards geben?
Sebastian Hohwieler: Also Ethernet stellt sich ausreichend performant auf dafür. Es gibt ein Ultra Konsortium, die sich auch genau um diese Probleme, die ich vorhin beschrieben habe, kümmern. Ob sie jetzt wirklich von dem RoCE weg wollen und was Neues machen oder einfach das Ethernet für RoCE fit machen wollen, um da die Übertragungsraten die letzten paar Prozent noch rauszuholen, verbessern wollen, wird sich zeigen. Auch das InfiniBand entwickelt sich weiter. Auch da sind wir bei 200, 400 Gigabit. Die nächsten Generationen stehen da auch in den Startlöchern, sind teilweise schon verfügbar. Das heißt, die Protokolle, die Netzwerke, die Netzwerke entwickeln sich da einfach mit, wachsen dadurch relativ stark. Was wir sehen ist, dass die Produktzyklen, die Lebenszyklen der Produkte, deutlich kürzer sind. 10 Gigabit habe ich schon eingebaut, als ich mit Netzwerken vor 20 Jahren angefangen habe. Funktioniert heute noch. 400 Gigabit wird jetzt schon langsam, kommt jetzt gerade, löst also 100 und 200 ab, das, was wir vor zwei, drei Jahren erst wirklich im Einsatz genommen haben. Also, der Entwicklungszyklus wird da einfach deutlich schneller.
Andreas Maurer: Das heißt, es bleibt weiter spannend, und wenn es denn zu so einer Gigafactory kommen sollte, dann werdet ihr auch wieder gut zu tun bekommen.
Sebastian Hohwieler: Auf jeden Fall, da freuen wir uns schon drauf.
Andreas Maurer: Vielen Dank, Sebastian Hohwieler. Zum Schluss noch ein Hinweis in eigener Sache. Unter dem Motto „Deutsche Cloud – sicher, souverän jetzt“ findet am 4. November der IONOS Summit 2025 statt. Alle Informationen zur Veranstaltung finden Sie unter events.ionos.com, und dort können Sie sich schon jetzt anmelden. Und natürlich finden Sie diesen Link auch in den Shownotes zu dieser Episode. Wie immer freuen wir uns über Feedback, Themenvorschläge oder Fragen, entweder in den Kommentaren unter dieser Folge oder ganz einfach per Mail an podcast@ionos.com. Vielen Dank fürs Zuhören und bis zum nächsten Mal.