Inside IONOS

Transkript

Zurück zur Episode

[Applaus]

Hallo und herzlich Willkommen zu Inside IONOS, mein Name ist Thilo Härtel und ich bin Karen Gräper. Als Gast begrüßen wir heute Tobias Weiß, Head of Tool Development bei der IONOS Tochter CM4all. Wir werden über die Grundlagen der generativen künstlichen Intelligenz sprechen. Hallo Tobi, was ist KI und was kann sie? Das ist eine sehr weit gefasste Frage. KI gibt's

lange in der Informatik, grundlegend ist es das Bestreben, Computersysteme zu erschaffen, die sich so verhalten oder mit uns interagieren, dass wir die Meinung haben, es wäre menschlich oder in irgendeiner Art und Weise intelligent. In den letzten Jahren ist es

dahin gegangen, dass wir einer KI oder einem System Aufgaben geben wollen, und wir beschreiben nur noch die erwartete Lösung. Das heißt, es ist nicht wie in der klassischen Programmierung, dass wir den Lösungsweg händisch programmieren, sondern wir geben Daten oder eine Frage oder vergleichbares ein, was klassifiziert werden muss, und wir erwarten das Ergebnis, und wie man dahin kommt oder wie das System dahin kommt, da erwarten wir, dass das eigentlich ohne händische Programmierung geschieht.

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: hier ist der Arm, da ist das Auto, find den Weg selber dahin, aber Natural Language Processing, also die Verarbeitung von gesprochener oder geschriebener Sprache, gehört auch dazu. Es gibt

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen:

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: das AI-Unterfeld, das sogenannte Machine Learning, das dieses Feld, wo wir sagen, okay, wir geben einem System eine riesige Menge an Daten ein, und wir möchten, dass dieses System, diese AI, dieses Machine Learning-Modell, diese Daten analysiert und

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Dinge findet, z.B. Muster, und aus diesem Machine Learning raus kam dann das ist das sehr spezielle, also das ist der kleinste Bereich in diesem großen Feld, das ist das Deep Learning. Das ist eine Anwendungsform von Machine Learning, bei dem die Netze komplexer werden. Mehr Ebenen erreichen und deswegen mehr Erkenntnisse, mehr statistische Zusammenhänge in den Daten erkennen, und aus diesem Deep Learning-Bereich kommen diese Transformer-Modelle, die wir in der Form von ChatGPT überall sehen, die menschliche Sprache analysiert haben, so viele Zusammenhänge gebildet haben, dass sie mit uns interagieren können, und wir das Gefühl dabei bekommen,

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: das könnte auch eine menschliche Antwort sein.

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Heißt das, die KI oder das, was dahintersteckt, hat eine Struktur wie ein Gehirn bzw. funktioniert ähnlich wie das menschliche Gehirn?

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen:

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Die Grundidee dahinter war tatsächlich, dass man nachbildet, wie Gehirne funktionieren. Man hat Neuronen, und die sind mit Synapsen verbunden, das sind die Wege zwischen den Neuronen, und dass eben die Signale, sei das ein Text bei diesen Netzen oder bei uns Menschen, z.B. wenn wir irgendwas sehen, dass diese Signale durch dieses Netz laufen und am Ende irgendeinen Output erzeugen. Das mag jetzt sein, bei Netzen, ich gebe Eingabetext ein, übersetz mir den bitte auf Italienisch, und am Ende kommt ein italienischer Text raus, und bei Menschen, ich gucke aus dem Fenster, hier fährt ein Zug vorbei, und ich sehe, das ist ein Zug. In der Grundidee sind die auf jeden Fall so aufgebaut, diese neuronalen Netze. Es ist aber keine Nachbildung, es ist kein Gehirn, es ist gibt in der Grundstruktur,  Überschneidungen. Am Ende sind das

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen:

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: abstrakte Konstrukte, die es ermöglichen, dass man eine Eingabe hat, die durch dieses Netz wandert, dieses Netz hat vor allem im Deep Learning sehr viele hintereinanderliegende Schichten, das heißt, das Eingabesignal geht in die Eingabeschicht, dann in die sogenannten Hidden Layer, davon gibt's unter Umständen sehr viele, und kommt am Ende bei der Ausgabeschicht raus, und es wandert also von Schicht zu Schicht und im Idealfall haben wir dann eben für einen Input auch den gewünschten Output.

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Was ich noch ergänzend sagen kann, diese Back Propagation, das ist kein biologisches Konzept, da gibt es starke Meinungen, dass eben das genau das ist, das hat keine Entsprechung in der Biologie. Die Back Propagation ist ein rein mathematisches Verfahren. Gehirne arbeiten nicht so.

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Da sieht man, dass das Ziel nicht die Nachbildung des Gehirns war,

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen:

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: sondern das Gehirn eigentlich nur ja die Vorlage in der Funktionsweise war.

Wenn wir jetzt am Anfang bei den Definitionen sind, gibt's einen Unterschied zu Machine Learning? Das ist eine andere Begrifflichkeit, die in dem Zusammenhang oft gehört wird. Wir kennen diese Anwendungszwecke seit Jahren, also Text to Speech, das heißt die Umwandlung von geschriebenem Text in was, was klingt wie eine menschliche Stimme, Computer Vision, also Bilderkennung, ist auf diesem Bild eine Katze, ist da ein Hund, Robotics, also dieses Feld, z.B. in Autofabriken, dass ein Auto gebaut wird, wir wollen nicht mehr den ganzen Weg programmieren, den jeder einzelne Arm laufen soll, um ein Auto zu bauen, sondern wir sagen: Welche konkreten Anwendungsbereiche für KI gibt es denn, kannst du das vielleicht noch genauer erklären? Das bekannteste ist Chat GPT.

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: schreib mir doch mal eine Geschichte für meine Kinder zum Einschlafen, und der Protagonist soll ein blauer Drache sein. Ich kann

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: sagen, schreib mir eine Bewerbung für Stelle XY, oder ich gebe dir einen Text vor, und kannst du mir den bitte zusammenfassen, weil ich habe keine Zeit oder keine Lust, vier Seiten zu lesen. Bitte, gebe mir eine Seite mit den wichtigsten Erkenntnissen aus diesem Text. Das ist sehr populär, da wird das angewendet, und zwar auf Arten, wo man nicht drauf kommt. In der Entwicklung ist der GitHub CoPilot populär zurzeit, und im Prinzip macht der nichts anderes, der generiert nämlich eigentlich auch nur Texte, und zwar eine sehr spezielle Art von Texten, nämlich Quelltexte. Es gibt andere Anwendungen, diese Bildgeneratoren sind

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen:

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: auch ziemlich bekannt, also Stable Diffusion oder Midjourney, wo man im Prinzip ein Bild beschreiben oder Bildinhalte, die man gerne sehen möchte, und ein neuronales Netz generiert einem mal

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen:

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: mehr, mal weniger gute Bilder, die man dann weiterverwenden kann. Es gibt

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: andere Anwendungsfelder, die da wären, dass man, es gibt viel im Audiobereich, dass man, es gibt inzwischen Musikstücke, die komplett von AI oder von einem Maschinenmodell, ich will nicht sagen komponiert, aber erzeugt wurden. Was wir schon länger machen, ist diese Mustererkennung, wenn man einen riesen Datensatz hat und man will Abweichungen oder gewisse Muster finden, wenn man Monitoring-Daten hat, dass man den nächsten Ausfall vorhersagt. Die Anwendungszwecke sind vielfältig.

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: Wenn wir jetzt tiefer

Dahintersteckt, GPT-4, also ein Generative Pre-trained Transformer, welches eine spezielle Netzwerkarchitektur besitzt, die sehr viel Daten gesehen hat, faktisch das ganze Internet, alle gescannten Bücher, die digitalisierten Vorlagen, und was wir da immer wieder machen, ist , eine Frage stellen: reingehen, wie können wir uns das vorstellen, wie funktioniert denn die Architektur von diesen Transformer-Modellen, wie GPT? Die basieren auf einer älteren Architektur, also neuronales Netz, gibt's dann eine Eingabeebene, wo

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: "Attention is all you need", das heißt, man gibt also diesen Netzen und diesen Schichten, durch die das Signal läuft, z.B. der Eingabetext, den gibt man einen zusätzlichen Mechanismus mit, und das ist diese Attention, das heißt, bisherige Netze haben so funktioniert, dass sie bei einem längeren Text, den sie übersetzen sollten, dazu neigten, dass sie am Ende des Textes vergaßen, was am Anfang des Textes vorkam. Dadurch wurden vor allem längere Texte in den Übersetzungen ziemlich schlecht. Man hat aber jetzt eine Möglichkeit gefunden, wie man diesem Netz mehr oder weniger mitteilen kann, es eigentlich erkennen lassen kann, wie der ganze Text innerlich zusammenhängt, und zwar jedes einzelne Wort. Das führt dazu, dass dieser Text, der durch 100 Ebenen läuft,

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: die Erkenntnis im Netz gibt oder zumindest die Information, wie jedes Wort mit dem anderen zusammenhängt. Das heißt, wenn ich ein Text habe, wo ich sage, es geht hier um Alice und Bob, und die fahren in den Urlaub, und dann erzähle ich eine Geschichte, weiß das Netz am Ende immer noch, wer die Protagonisten sind, dass es hier um Urlaub geht, und dieses Attention Window, also dieses Aufmerksamkeitsfenster, wie das Netz durch den Text geht, das ist nicht mehr so limitiert wie früher. Diese Transformer-Modelle sind inzwischen so gut und ich sag mal, umfassend, dass sie diese Texte generieren, die wir für nahezu menschlich halten. Im Prinzip funktioniert das so, dass man ein Wort reingibt, und das Netz sagt das nächste Wort vorher. Das ist erstmal ziemlich einfach, das macht auch jedes Mobiltelefon, da bekommt man einen Wortvorschlag für das nächste Wort, und zwar auf Basis des vorherigen Wortes. Das ist ein sogenanntes One-gram, also ein 1-Gram auf Deutsch. Man kann das weiter fortführen, indem man sagt, ich gebe dir zwei Wörter, und du sagst mir das darauf folgende. Das heißt, wenn ich jetzt im Deutschen mit "Ich" anfange, ist es relativ einfach, in so einem One-gram zu sagen, ja, wahrscheinlich ist das nächste Wort ein "bin", also "Ich bin". Wenn man aber dann schon bei einem 2-Gram ist, dass man sagt, "Ich bin", und jetzt sag mir mal das nächste Wort vorher, merkt man schon, da kann schon wesentlich mehr kommen, was auch noch im Idealfall Sinn ergibt. Man hat das dann immer weiter hochgeschraubt und ist dann bei sogenannten N-grams, also einer beliebig oder theoretisch beliebig großen Anzahl an Wörtern, so, dass man also für jede Wortkombination immer das nächste Wort vorhersagen könnte. Das funktioniert nicht gut, weil man dafür im Prinzip alles, was wir jemals an Text erzeugt haben, und die Komplexität der menschlichen Sprache in der Maschine abbilden müsste. Solche Maschinen gibt's nicht,

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: ich weiß nicht, ob sie jemals geben wird, und dann hat man einfach das gemacht, was man immer macht, wenn die Realität zu komplex ist, man bildet ein Modell, und daher kommt auch Large Language Models. Im Prinzip ist das so ein bisschen wie ein JPEG, also das Dateiformat JPEG, das im Internet früher vor allem gerne verwendet wurde. Man erkennt das Bild, wenn man da aber ranzoomt, dann sieht man diese ganzen Artefakte, und genauso sind die Sprachmodelle. Die sind sehr vollständig und umfassend heutzutage, wenn man die genauer unter die Lupe nimmt, haben die natürlich ihre Grenzen, und das ist dann das, was gerne als Halluzinieren bezeichnet wird. Das heißt, man kann das bei ChatGPT immer noch relativ einfach herbeiführen, man kriegt da einfach Aussagen raus, die klingen, also die werden im Brustton der Überzeugung getroffen, die sind aber einfach faktisch falsch. Das heißt, das beruht im Grunde auf Wahrscheinlichkeit, was das logische nächste Wort sein müsste. Funktioniert so dann auch das Trainieren? Wenn die KI etwas faktisch Falsches ausspielt und man korrigiert es und sagt, nein, so ist es aber richtig, dann merkt sie es, oder ist es zu vereinfacht gedacht? Es ist im Prinzip genau das, was es ist, du hast gerade "logisch" gesagt, es ist sogar eigentlich Statistik, es ist eigentlich ein sehr großes statistisches Modell, wie Sprache funktioniert. Wenn wir diese Netze trainieren, dann ist eine dieser Aufgaben z.B., dass man eben sagt, ich gebe dir ein Text, und ich habe ein Satz vorformuliert, nämlich z.B. "Gestern habe ich meinen nächsten Urlaub gebucht", und man sagt dann aber, hier ist der Satz "Gestern habe ich meinen, bitte vervollständige den Satz". Und am Anfang wird das Netz die wildesten Kombinationen vorschlagen, und jedes Mal, wenn wir nicht diesen gewünschten Ausgabesatz erhalten, dann teilen wir dem Netz mit, nein, das war es

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: nicht, versuch's noch mal. Dieser Vorgang wird mehrere Milliarden Mal wiederholt, und am Ende kommen wir dahin, dass wir dann tatsächlich diesen gewünschten Ausgabesatz erhalten. Das Netz hat dafür einen relativ Algorithmus, der nichts neues ist.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Man nennt das Back Propagation, das heißt, die Ausgabeebene sagt, ja, das war nicht das, was eigentlich gewünscht ist, und sagt der vorherigen Ebene, das war nicht das, was gewünscht ist. Da werden diese Pfade,

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: man kann abstrakt sagen, in ihrer Form reduziert oder in ihrer Form verstärkt, bzw. verdickt oder verdünnt und gleichzeitig teilt diese Ebene wieder der vorherigen Ebene mit, hallo, wir haben hier das Feedback bekommen, hat noch nicht gepasst, und das wandert durch all diese Ebenen zurück, und daher kommt dieser Begriff Back Propagation, also man hat quasi eine Fehlerfunktion, das heißt, wie weit weicht denn das erzeugte vom gewünschten ab, und das teilen wir nach hinten immer weiter bis zur Inputebene wieder mit. Und wenn man das ein paar Milliarden Mal macht, dann bekommt man im Idealfall einen Output, der nah an dem ist, was man sich gewünscht hat. Dieser ganze Vorgang, der sehr vereinfacht dargestellt wurde von mir, das ist das, was wir meinen, wenn wir sagen, wir trainieren eine KI, wir trainieren ein neuronales Netz.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Kannst du noch mal ein bisschen tiefer auf das Thema Halluzinieren eingehen, was es damit auf sich hat? Halluzinieren, ist ein Begriff, der sich durchsetzt, man hört auch gerne mal, das lügt, das Netz. Wir Menschen neigen dazu, solche Systeme zu vermenschlichen, vor allem, wenn wir mit denen das Gefühl haben, wir würden Chat betreiben. Das Netz lügt nicht.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Damit ich lügen kann, brauche ich eine abstrakte Idee von Wahrheit. Lüge bedeutet, ich habe

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: eine Täuschungsabsicht, das hat das ja alles nicht. Am Ende sind das statistische Daten, und wie jede Statistik kann immer nur ein gewisser

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Anteil der Gesamtfälle abgebildet werden. Da ist es so, dass wir Output erhalten, der z.B. syntaktisch, semantisch völlig korrekt ist, also es ist kein Gibberish, was da rauskommt, sondern es ist ein korrekter Satz, den ein Mensch so hätte formuliert haben können, der aber inhaltlich falsche Fakten enthält. Und das ist genau das, was wir in diesen Modellen aktuell nicht haben, das, das sogenannte Weltwissen. Dieses System ist trainiert auf großen Teilen eben des Internets, auf Büchern, auf Transkripten von Filmen, also jeder Art von menschlich erzeugten Text, da steckt schon großer Teil der Weltwirklichkeit, also wie die sogenannte Realität eben ist, steckt da drin. Es kann aber nicht alles erfassen, denn außerhalb des Systems gibt's für das System nichts. Das führt dann dazu, dass man hin und wieder, oder wenn man es eben drauf anlegt, Aussagen bekommt, die einfach nicht stimmen, weil wir bisher kein Netz haben, was generelle Informationen über die Welt hat oder die auch gerade eben jetzt sich holen kann.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Kommen die Modelle also aus der Mathematik, oder wo hat das seinen Ursprung? Eigentlich ist es die Sprachwissenschaft, aus der das kommt, natürlich mit der Mathematik und der Statistik zusammen. Das heißt, man hat

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: schnell erkannt, dass halt Sprache gewissen Gesetzmäßigkeiten folgt. Das heißt, wir können, wenn ich einen Satz bilde, "Gestern ich buche meinen Urlaub", dann weiß jeder sofort, okay, da stimmt was nicht in dem Satz, die Grammatik passt nicht. Diese Gesetzmäßigkeiten können wir

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: formal ausdrücken, dafür gibt's grammatikalische Werke für jede Sprache, die eben die Regelhaftigkeit einer Sprache beschreiben. Sprache hat aber noch wesentlich mehr Gesetzmäßigkeiten, nämlich, ich kann ein grammatikalisch völlig korrekten Satz formulieren, der aber inhaltlich überhaupt keinen Sinn ergibt. Wenn ich jetzt sage, "Morgen meine Schwester den Wald spazieren mit", ergibt es keinen Sinn, also der Empfänger dieses Satzes kann

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: keine verwertbare Information ziehen, und diese Gesetzmäßigkeit, die können wir eben gar nicht so richtig beschreiben, was also in dem Satz wieder mal abseits der Grammatik und des Wortschatzes wieder formuliert sein muss, so dass wir da draus eine Information ziehen können. Das ist letztlich das, was bei diesen Transformer-Modellen, das können die halt sehr gut, also inzwischen können die auch Sinnebenen erkennen und das soweit abstrahieren, dass sie also auch auf Konzept- und Ideenebene diese Inhalte so umsetzen können, dass sie auf Fragen auch halbwegs belastbare Antworten geben können. Die Schwäche sind einfach immer nur die Fakten, und wenn man über Themen spricht, die seit 300 Jahren, in vielen Büchern, Texten, wie auch immer behandelt werden, du bekommst wenn du ChatGPT fragst, was ist Liebe, da bekommst du seitenweise bedeutungsschwangeres und salbungsvolles Texte heraus, und das stimmt auch soweit. Wenn ich jetzt aber z.B. relativ neue Informationen oder Konzepte, die nischenhaft sind, frage, dann kommt man in diesen Bereich, wo das inakkurat wird.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Jetzt bist du ja von Haus aus Softwareentwickler, kannst du uns vielleicht sagen, wie ihr mit KI arbeitet? Abgesehen davon, dass wir Software entwickeln, die mit KI oder mit OpenAI, also dem Modell, dem GPT-Modell, das hinter ChatGPT steht kann man

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: über eine API ansprechen, dass wir so Produkte entwickeln, die darauf basieren, dass man sich da dran bindet und Erkenntnisse von OpenAI bezieht, haben wir den CoPilot hier.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Inzwischen haben die meisten gehört, was das ist.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Den von GitHub, verwenden wir.Am Anfang saß ich davor und dachte, krass, das ist diese Brot- und Butter-Aufgaben, ich habe hier eine Sammlung an Werten in einem Array, eine Art von Collection, kannst du bitte mal da drüber iterieren und mir diese, was man 200 Mal gemacht hat, diese Schleife schreiben, die über diese Collection iteriert und mir immer Key und Value ausgibt. Du musst glaube ich noch einen Schritt zurückgehen, du musst glaube ich noch mal sagen, was CoPilot ist. CoPilot ist ein System von GitHub, und damit inzwischen Microsoft, die auch an OpenAI beteiligt sind, GitHub ist, wie der Name sagt, eine Art CoPilot für einen Programmierer. Das heißt, ich kann einerseits sagen, ich beschreibe dir jetzt abstrakt eine Aufgabe, z.B. schreibe mir eine Schleife, die von 0 bis 100 zählt, und dann werde ich da relativ schnell Code erhalten, der genau das tut. Ich kann aber auch sagen, ich habe hier ein Stück Code, das funktioniert nicht, da ist irgendwie ein Bug drin, ich bekomme einen Fehler, und kann mir dann Vorschlag machen lassen, wie man diesen Code denn ja umgestalten könnte, dass er wieder läuft. Ich kann inzwischen sogar sagen, hier ist mein Code, kannst du mir bitte dafür die Tests schreiben? Als kleine Ergänzung, wenn man Codes schreibt, schreibt man idealerweise auch Tests, das ist weiterer Code, der, vereinfacht gesagt, den Code überprüft und sagt, ich klopf da mal auf Herz und Nieren ab und gucke, ob das so arbeitet, wie das vom Entwickler gedacht ist. Ich kann also viele Aufgaben, die früher, ja, sehr viel, teils nervige Handarbeit waren, inzwischen automatisiert erledigen lassen, und zwar, ja, so, dass ich nicht wieder Code schreiben muss, der die Arbeit automatisiert, sondern ich kann diesem System einfach meinen Code vorwerfen und Fragen dazu stellen oder Aufgaben erteilen, und das ist also vor allem am Anfang, ich traute mich da mal, ich weiß, wie das funktioniert, aber trotzdem fand ich es beeindruckend und habe da also die ersten zwei Tage auch sehr viel explorativ irgendwie damit rumgespielt und versucht, das Ding aufs Glatteis zu führen, was inzwischen gar nicht mehr so einfach ist, und vor allem für so wiederkehrende Aufgaben ist das beeindruckend, wie schnell man damit zu Ergebnissen kommt.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Wo glaubst du, wird das noch hinführen? Also, werdet ihr als Softwareentwickler überflüssig, oder ist das eher als eine Art Unterstützung zu sehen, die euch Standardaufgaben abnimmt, s dass ihr euch dann auf andere Sachen konzentrieren könnt? Ich muss das als Softwareentwickler jetzt ja sagen, ich glaube nicht, dass wir in absehbarer Zeit ersetzt werden, weil der Softwareentwickler ist ja mehr als, ich sag mal, ganz böse, so ein Codeaffe, der da nur sitzt und also Code runterklappert, sondern zur Softwareentwicklung gehört ja auch irgendwie das Finden eines Konzeptes, das Entwickeln einer Idee, die Planung eines Projektes, das gehört alles ja auch noch mit dazu. Und das heißt, im Prinzip ist es so ein bisschen, ich delegiere, das heißt, ich habe den großen, ich sag jetzt mal, Masterplan im Kopf, aber ich delegiere einzelne Unteraufgaben an dieses CoPilot-System, oder wenn ich denn tatsächlich mal irgendwie auf dem Schlauch stehe, dann kann ich mir helfen lassen. Das ist aber im Prinzip das, was wir als Entwickler ja immer schon gemacht haben, dass wir irgendwie nach einer Stunde, wo wir da drauf starren und nichts mehr erkennen, Kollegen holen, dann, dann kannst du da mal drauf gucken, irgendwie, ich sehe es gerade nicht. Das heißt, eine Abschaffung unseres Berufsbildes ist, glaube ich, in absehbarer Zeit kommt jetzt erstmal nicht in Frage. Ich denke aber, dass ich die Art und Weise, wie wir entwickeln, schon verändern wird, und zwar der Gestalt, dass wir genau

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: einfache Aufgaben, wiederkehrende Aufgaben, das, was manchmal so ein bisschen genervt hat, uns einfach abnehmen lassen, und dadurch

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper:

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: zufriedener wieder sind an manchen Stellen und vielleicht auch sogar produktiver. Wenn ich mich nicht immer wieder um denselben Kram kümmern muss, dann habe ich vielleicht in meinem Kopf ein bisschen Platz für andere, neue Ideen.

irgendeine Art von Input reinkommt, dann gibt es eine oder mehrere Verarbeitungsebenen dazwischen, und am Ende gibt's eine Ausgabeebene. Das hat man lange schon gemacht, da gibt's verschiedenste Architekturen. Im Prinzip ist es aber, dass ein Input in das Netz reingeht, da durchläuft und am Ende auf einen Output gematcht wird oder einen Output rauskommt. Während diese Signale durch das Netz laufen, also über diese Synapsen, wird für einen gewissen Input, wann der Weg, sage ich mal, ausgetreten hat durch das Netz, der ein gewünschten Output erzeugt. Das sind so diese Parameter nennt. Das heißt, wenn ich z.B. einen Netz habe, dem ich immer wieder Bild vorgebe, und zwar von, sagen wir mal, Katzen und Hunden, und ich möchte, dass das Netz immer wieder erkennt, ist es eine Katze oder ist es ein Hund, dann wird bei einem Katzenbild die Pfade durch das Netz, die auf Katzenbilder hindeuten, werden breiter sein als die für Hunde. Das hat man dann auch bei Text irgendwann gemacht. Man hat Textübersetzungen gemacht mit neuronalen Netzen, und die waren semi-optimal. Es gab mal diese Zeit, als der Google Translator, da hat Google auf eine vorherige Architektur umgestellt, das war diese Zeit, als die Übersetzungen bei Google semi-optimal waren, und da kamen schlaue Köpfe bei Google auf die Idee, man könnte ja diese Netze mit einer zusätzlichen Mechanik versehen, und zwar ist das dieses relativ berühmte Paper: Vielen Dank für das Gespräch. Danke schön, gerne. Ich danke euch für eure Zeit. [Musik]