Transkript

[Applaus]

Hallo und herzlich Willkommen zu Inside IONOS, mein Name ist Thilo Härtel und ich bin Karen Gräper. Als Gast begrüßen wir heute Tobias Weiß, Head of Tool Development bei der IONOS Tochter CM4all. Wir werden über die Grundlagen der generativen künstlichen Intelligenz sprechen. Hallo Tobi, was ist KI und was kann sie? Das ist eine sehr weit gefasste Frage. KI gibt's

lange in der Informatik, grundlegend ist es das Bestreben, Computersysteme zu erschaffen, die sich so verhalten oder mit uns interagieren, dass wir die Meinung haben, es wäre menschlich oder in irgendeiner Art und Weise intelligent. In den letzten Jahren ist es

dahin gegangen, dass wir einer KI oder einem System Aufgaben geben wollen, und wir beschreiben nur noch die erwartete Lösung. Das heißt, es ist nicht wie in der klassischen Programmierung, dass wir den Lösungsweg händisch programmieren, sondern wir geben Daten oder eine Frage oder vergleichbares ein, was klassifiziert werden muss, und wir erwarten das Ergebnis, und wie man dahin kommt oder wie das System dahin kommt, da erwarten wir, dass das eigentlich ohne händische Programmierung geschieht.

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Dinge findet, z.B. Muster, und aus diesem Machine Learning raus kam dann das ist das sehr spezielle, also das ist der kleinste Bereich in diesem großen Feld, das ist das Deep Learning. Das ist eine Anwendungsform von Machine Learning, bei dem die Netze komplexer werden. Mehr Ebenen erreichen und deswegen mehr Erkenntnisse, mehr statistische Zusammenhänge in den Daten erkennen, und aus diesem Deep Learning-Bereich kommen diese Transformer-Modelle, die wir in der Form von ChatGPT überall sehen, die menschliche Sprache analysiert haben, so viele Zusammenhänge gebildet haben, dass sie mit uns interagieren können, und wir das Gefühl dabei bekommen,

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Die Grundidee dahinter war tatsächlich, dass man nachbildet, wie Gehirne funktionieren. Man hat Neuronen, und die sind mit Synapsen verbunden, das sind die Wege zwischen den Neuronen, und dass eben die Signale, sei das ein Text bei diesen Netzen oder bei uns Menschen, z.B. wenn wir irgendwas sehen, dass diese Signale durch dieses Netz laufen und am Ende irgendeinen Output erzeugen. Das mag jetzt sein, bei Netzen, ich gebe Eingabetext ein, übersetz mir den bitte auf Italienisch, und am Ende kommt ein italienischer Text raus, und bei Menschen, ich gucke aus dem Fenster, hier fährt ein Zug vorbei, und ich sehe, das ist ein Zug. In der Grundidee sind die auf jeden Fall so aufgebaut, diese neuronalen Netze. Es ist aber keine Nachbildung, es ist kein Gehirn, es ist gibt in der Grundstruktur, Überschneidungen. Am Ende sind das

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: abstrakte Konstrukte, die es ermöglichen, dass man eine Eingabe hat, die durch dieses Netz wandert, dieses Netz hat vor allem im Deep Learning sehr viele hintereinanderliegende Schichten, das heißt, das Eingabesignal geht in die Eingabeschicht, dann in die sogenannten Hidden Layer, davon gibt's unter Umständen sehr viele, und kommt am Ende bei der Ausgabeschicht raus, und es wandert also von Schicht zu Schicht und im Idealfall haben wir dann eben für einen Input auch den gewünschten Output.

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: sagen, schreib mir eine Bewerbung für Stelle XY, oder ich gebe dir einen Text vor, und kannst du mir den bitte zusammenfassen, weil ich habe keine Zeit oder keine Lust, vier Seiten zu lesen. Bitte, gebe mir eine Seite mit den wichtigsten Erkenntnissen aus diesem Text. Das ist sehr populär, da wird das angewendet, und zwar auf Arten, wo man nicht drauf kommt. In der Entwicklung ist der GitHub CoPilot populär zurzeit, und im Prinzip macht der nichts anderes, der generiert nämlich eigentlich auch nur Texte, und zwar eine sehr spezielle Art von Texten, nämlich Quelltexte. Es gibt andere Anwendungen, diese Bildgeneratoren sind

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: andere Anwendungsfelder, die da wären, dass man, es gibt viel im Audiobereich, dass man, es gibt inzwischen Musikstücke, die komplett von AI oder von einem Maschinenmodell, ich will nicht sagen komponiert, aber erzeugt wurden. Was wir schon länger machen, ist diese Mustererkennung, wenn man einen riesen Datensatz hat und man will Abweichungen oder gewisse Muster finden, wenn man Monitoring-Daten hat, dass man den nächsten Ausfall vorhersagt. Die Anwendungszwecke sind vielfältig.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: die Erkenntnis im Netz gibt oder zumindest die Information, wie jedes Wort mit dem anderen zusammenhängt. Das heißt, wenn ich ein Text habe, wo ich sage, es geht hier um Alice und Bob, und die fahren in den Urlaub, und dann erzähle ich eine Geschichte, weiß das Netz am Ende immer noch, wer die Protagonisten sind, dass es hier um Urlaub geht, und dieses Attention Window, also dieses Aufmerksamkeitsfenster, wie das Netz durch den Text geht, das ist nicht mehr so limitiert wie früher. Diese Transformer-Modelle sind inzwischen so gut und ich sag mal, umfassend, dass sie diese Texte generieren, die wir für nahezu menschlich halten. Im Prinzip funktioniert das so, dass man ein Wort reingibt, und das Netz sagt das nächste Wort vorher. Das ist erstmal ziemlich einfach, das macht auch jedes Mobiltelefon, da bekommt man einen Wortvorschlag für das nächste Wort, und zwar auf Basis des vorherigen Wortes. Das ist ein sogenanntes One-gram, also ein 1-Gram auf Deutsch. Man kann das weiter fortführen, indem man sagt, ich gebe dir zwei Wörter, und du sagst mir das darauf folgende. Das heißt, wenn ich jetzt im Deutschen mit "Ich" anfange, ist es relativ einfach, in so einem One-gram zu sagen, ja, wahrscheinlich ist das nächste Wort ein "bin", also "Ich bin". Wenn man aber dann schon bei einem 2-Gram ist, dass man sagt, "Ich bin", und jetzt sag mir mal das nächste Wort vorher, merkt man schon, da kann schon wesentlich mehr kommen, was auch noch im Idealfall Sinn ergibt. Man hat das dann immer weiter hochgeschraubt und ist dann bei sogenannten N-grams, also einer beliebig oder theoretisch beliebig großen Anzahl an Wörtern, so, dass man also für jede Wortkombination immer das nächste Wort vorhersagen könnte. Das funktioniert nicht gut, weil man dafür im Prinzip alles, was wir jemals an Text erzeugt haben, und die Komplexität der menschlichen Sprache in der Maschine abbilden müsste. Solche Maschinen gibt's nicht,

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: ich weiß nicht, ob sie jemals geben wird, und dann hat man einfach das gemacht, was man immer macht, wenn die Realität zu komplex ist, man bildet ein Modell, und daher kommt auch Large Language Models. Im Prinzip ist das so ein bisschen wie ein JPEG, also das Dateiformat JPEG, das im Internet früher vor allem gerne verwendet wurde. Man erkennt das Bild, wenn man da aber ranzoomt, dann sieht man diese ganzen Artefakte, und genauso sind die Sprachmodelle. Die sind sehr vollständig und umfassend heutzutage, wenn man die genauer unter die Lupe nimmt, haben die natürlich ihre Grenzen, und das ist dann das, was gerne als Halluzinieren bezeichnet wird. Das heißt, man kann das bei ChatGPT immer noch relativ einfach herbeiführen, man kriegt da einfach Aussagen raus, die klingen, also die werden im Brustton der Überzeugung getroffen, die sind aber einfach faktisch falsch. Das heißt, das beruht im Grunde auf Wahrscheinlichkeit, was das logische nächste Wort sein müsste. Funktioniert so dann auch das Trainieren? Wenn die KI etwas faktisch Falsches ausspielt und man korrigiert es und sagt, nein, so ist es aber richtig, dann merkt sie es, oder ist es zu vereinfacht gedacht? Es ist im Prinzip genau das, was es ist, du hast gerade "logisch" gesagt, es ist sogar eigentlich Statistik, es ist eigentlich ein sehr großes statistisches Modell, wie Sprache funktioniert. Wenn wir diese Netze trainieren, dann ist eine dieser Aufgaben z.B., dass man eben sagt, ich gebe dir ein Text, und ich habe ein Satz vorformuliert, nämlich z.B. "Gestern habe ich meinen nächsten Urlaub gebucht", und man sagt dann aber, hier ist der Satz "Gestern habe ich meinen, bitte vervollständige den Satz". Und am Anfang wird das Netz die wildesten Kombinationen vorschlagen, und jedes Mal, wenn wir nicht diesen gewünschten Ausgabesatz erhalten, dann teilen wir dem Netz mit, nein, das war es

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Den von GitHub, verwenden wir.Am Anfang saß ich davor und dachte, krass, das ist diese Brot- und Butter-Aufgaben, ich habe hier eine Sammlung an Werten in einem Array, eine Art von Collection, kannst du bitte mal da drüber iterieren und mir diese, was man 200 Mal gemacht hat, diese Schleife schreiben, die über diese Collection iteriert und mir immer Key und Value ausgibt. Du musst glaube ich noch einen Schritt zurückgehen, du musst glaube ich noch mal sagen, was CoPilot ist. CoPilot ist ein System von GitHub, und damit inzwischen Microsoft, die auch an OpenAI beteiligt sind, GitHub ist, wie der Name sagt, eine Art CoPilot für einen Programmierer. Das heißt, ich kann einerseits sagen, ich beschreibe dir jetzt abstrakt eine Aufgabe, z.B. schreibe mir eine Schleife, die von 0 bis 100 zählt, und dann werde ich da relativ schnell Code erhalten, der genau das tut. Ich kann aber auch sagen, ich habe hier ein Stück Code, das funktioniert nicht, da ist irgendwie ein Bug drin, ich bekomme einen Fehler, und kann mir dann Vorschlag machen lassen, wie man diesen Code denn ja umgestalten könnte, dass er wieder läuft. Ich kann inzwischen sogar sagen, hier ist mein Code, kannst du mir bitte dafür die Tests schreiben? Als kleine Ergänzung, wenn man Codes schreibt, schreibt man idealerweise auch Tests, das ist weiterer Code, der, vereinfacht gesagt, den Code überprüft und sagt, ich klopf da mal auf Herz und Nieren ab und gucke, ob das so arbeitet, wie das vom Entwickler gedacht ist. Ich kann also viele Aufgaben, die früher, ja, sehr viel, teils nervige Handarbeit waren, inzwischen automatisiert erledigen lassen, und zwar, ja, so, dass ich nicht wieder Code schreiben muss, der die Arbeit automatisiert, sondern ich kann diesem System einfach meinen Code vorwerfen und Fragen dazu stellen oder Aufgaben erteilen, und das ist also vor allem am Anfang, ich traute mich da mal, ich weiß, wie das funktioniert, aber trotzdem fand ich es beeindruckend und habe da also die ersten zwei Tage auch sehr viel explorativ irgendwie damit rumgespielt und versucht, das Ding aufs Glatteis zu führen, was inzwischen gar nicht mehr so einfach ist, und vor allem für so wiederkehrende Aufgaben ist das beeindruckend, wie schnell man damit zu Ergebnissen kommt.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Wo glaubst du, wird das noch hinführen? Also, werdet ihr als Softwareentwickler überflüssig, oder ist das eher als eine Art Unterstützung zu sehen, die euch Standardaufgaben abnimmt, s dass ihr euch dann auf andere Sachen konzentrieren könnt? Ich muss das als Softwareentwickler jetzt ja sagen, ich glaube nicht, dass wir in absehbarer Zeit ersetzt werden, weil der Softwareentwickler ist ja mehr als, ich sag mal, ganz böse, so ein Codeaffe, der da nur sitzt und also Code runterklappert, sondern zur Softwareentwicklung gehört ja auch irgendwie das Finden eines Konzeptes, das Entwickeln einer Idee, die Planung eines Projektes, das gehört alles ja auch noch mit dazu. Und das heißt, im Prinzip ist es so ein bisschen, ich delegiere, das heißt, ich habe den großen, ich sag jetzt mal, Masterplan im Kopf, aber ich delegiere einzelne Unteraufgaben an dieses CoPilot-System, oder wenn ich denn tatsächlich mal irgendwie auf dem Schlauch stehe, dann kann ich mir helfen lassen. Das ist aber im Prinzip das, was wir als Entwickler ja immer schon gemacht haben, dass wir irgendwie nach einer Stunde, wo wir da drauf starren und nichts mehr erkennen, Kollegen holen, dann, dann kannst du da mal drauf gucken, irgendwie, ich sehe es gerade nicht. Das heißt, eine Abschaffung unseres Berufsbildes ist, glaube ich, in absehbarer Zeit kommt jetzt erstmal nicht in Frage. Ich denke aber, dass ich die Art und Weise, wie wir entwickeln, schon verändern wird, und zwar der Gestalt, dass wir genau