Bildbeschreibung: Die Verarbeitung natürlicher Sprache ist ein Zweig der künstlichen Intelligenz (KI). Mithilfe von NLP-Algorithmen (Natural Language Processing) verstehen, generieren oder übersetzen Maschinen menschliche Sprache, während sie geschrieben oder gesprochen wird.
Aklassischer Berechnungsalgorithmusermöglicht es Ihnen, eine bestimmte Aufgabe mithilfe einer Sammlung endlicher (sie stoppen nach einer endlichen Anzahl von Schritten) und eindeutigen (sie sind klar und präzise) Anweisungen und Operationen auszuführen. Mit anderen Worten: Klassische Algorithmen sind so programmiert, dass sie exakte Ergebnisse liefern, sie sind eindeutig und lassen keinen Raum für Anpassungen.
AKI-Algorithmusbasiert auf künstlichen neuronalen Netzen, die darauf ausgelegt sind, aus Trainingsdaten zu lernen, ohne explizit programmiert zu werden.
KI-Algorithmen sind noch nicht fertig, denn sie können mit der Erfahrung weiter lernen und sich verbessern. Sie sind häufig mehrdeutig, da sie bei ähnlichen Dateneingaben unterschiedliche Ergebnisse liefern. Dabei handelt es sich um nichtlineare Modelle. Kleine Schwankungen der Eingaben können zu großen Schwankungen der Ausgabe führen. Aus diesem Grund haben neuronale Netze so viele Parameter. Diese Einstellungen steuern, wie Verbindungsgewichte während des Trainingsprozesses angepasst werden.
Das Konzept der Gewichtsanpassung ist ein grundlegendes Konzept im maschinellen Lernen und in künstlichen neuronalen Netzen. Dieses Konzept ist von der Funktionsweise des menschlichen Gehirns inspiriert.
Im menschlichen Gehirn sind biologische Neuronen durch Synapsen miteinander verbunden. Die Stärke der Verbindung zwischen zwei Neuronen wird als „synaptisches Gewicht". Synaptische Gewichte werden während des menschlichen Lernprozesses verändert. Dieser noch wenig verstandene Prozess wird als „synaptische Plastizität". Synaptische Plastizität ist die Fähigkeit von Synapsen, die Verbindungsstärke basierend auf Erfahrung zu ändern.
Darüber hinaus basieren KI-Algorithmen auf statistischen Mathematikmodellen. Das bedeutet, dass sie keine exakten Ergebnisse liefern, sondern Ergebnisse, die wahrscheinlich sind. Es ist möglich, dass dasselbe neuronale Netzwerk bei ähnlichen Dateneingaben unterschiedliche Ergebnisse liefert.
Um diese Effekte zu minimieren, müssen synaptische Gewichte parametrisiert werden.
Im Fall von ChatGPT bestimmen 175 Milliarden Parameter das Verhalten des Modells.
Parameter werden anhand der Trainingsdaten eines Modells angepasst.
Die Parameter eines Sprachmodells können beispielsweise sein: die Wahrscheinlichkeit, dass ein Wort in einem Satz vorkommt, die Wahrscheinlichkeit, dass auf ein Wort ein anderes Wort folgt, die Wahrscheinlichkeit, dass ein Wort in einem bestimmten Kontext verwendet wird usw.
Im Fall von ChatGPT handelte es sich bei den Sprachmodelldaten, die zum Trainieren verwendet wurden, um einen Text- und Codesatz mit 500 Milliarden Wörtern. Die ChatGPT-Modellparameter werden verwendet, um Text zu generieren, der dem Text in den Trainingsdaten ähnelt. Das heißt, welche Wörter in einem bestimmten Satz am wahrscheinlichsten vorkommen.
Wenn die Trainingsdaten beispielsweise einen Satz wie „Das Haus ist weiß“ enthalten, lernt das Modell, dass die Wörter „das“, „Haus“, „ist“ und „weiß“ wahrscheinlich zusammen vorkommen.
Je häufiger der Satz im Lernmodell vorhanden ist, desto mehr werden die mit diesem Satz verbundenen synaptischen Gewichte aktualisiert, sodass sie höher sind. Dies bedeutet, dass das Modell mit größerer Wahrscheinlichkeit den Satz „Das Haus ist weiß“ als Ausgabe generiert.
Das Modell berücksichtigt auch den Kontext des Satzes und die Umgebung, in der er erscheint. Beispielsweise taucht der Satz „Das Haus ist weiß“ eher in einem Kontext auf, in dem es um Wohnsiedlungen geht, als in einem Kontext, in dem es um Reisebüros geht.
Auch Sprachregeln können die Wahrscheinlichkeit beeinflussen, dass ein Satz erscheint. Beispielsweise ist der Satz „Das Haus ist weiß“ im Französischen grammatikalisch korrekt, während der Satz „Das weiße Haus ist“ grammatikalisch falsch ist.
Es gibt viele andere Faktoren, die die Wahrscheinlichkeit bestimmen, dass ein Satz als Ausgabe eines Sprachmodells erscheint. Diese Faktoren können modell- oder anwendungsdomänenspezifisch sein.
Hinweis: Das Sprachmodell ist keine Kopiermaschine. Es ist in der Lage, Daten zu lernen und Text zu generieren, der den Trainingsdaten ähnelt, kopiert den Text jedoch nicht wörtlich aus den Trainingsdaten.
Eine KI kann mit klassischen Berechnungsalgorithmen programmiert werden, etwa in Expertensystemen oder Empfehlungssystemen, die Lerntechniken namens „maschinelles Lernen". Diese Techniken weisen jedoch Einschränkungen auf, wenn es um die Lösung komplexer oder unstrukturierter Probleme geht. Darüber hinaus ist es beim herkömmlichen Rechnen schwierig, noch nicht aufgetretene Probleme zu berücksichtigen.
Dank der Entwicklung von Techniken vontiefes Lernen(mehrere verborgene Schichten) kann KI komplexe und unstrukturierte Probleme lösen, ohne dass eine explizite Programmierung erforderlich ist. Deep Learning ermöglicht es Computerprogrammen, aus Daten zu lernen.
Allerdings sind Modelle des maschinellen Lernens komplex. Sie können Milliarden von Parametern enthalten, die alle gelernt, gewichtet und optimiert werden müssen. Dies erfordert eine Menge Daten und Rechenleistung. Der Lernprozess ist oft langwierig und kann viel Zeit in Anspruch nehmen. Trotz dieser Einschränkungen ist die Entwicklung von KI unendlich produktiver als die Entwicklung von Expertensystemen. Ohne das Konzept künstlicher neuronaler Netze wäre es für Menschen unmöglich gewesen, ChatGPT in so kurzer Zeit zu erreichen.