Auf der Suche nach Informationen kannst du entweder stundenlang verschiedene Quellen lesen – oder die Arbeit ChatGPT überlassen. Wenn du dich fragst, warum der Chatbot nahezu alles weiß, findest du hier die Antworten: Wir klären, woher ChatGPT sein Wissen bezieht, was das KI-Tool nicht weiß und was datenschutzrechtlich wichtig ist.
Welche Technologie steckt hinter ChatGPT?
ChatGPT ist ein KI-Modell aus den USA, das von OpenAI entwickelt wurde. Sein Wissen bezieht das Modell aus einem neuronalen Netzwerk – eine Art digitales Abbild des menschlichen Gehirns. ChatGPT ist dadurch in der Lage, Informationen zu verstehen, zu verarbeiten und daraus (maschinell) zu lernen.
GPT steht für „Generative Pre-trained Transformer“:
Generative bedeutet, das Modell gibt Daten nicht einfach nur wieder, sondern ist in der Lage, neue Daten zu generieren.
Pre-trained heißt, ChatGPT wurde darauf trainiert, Muster und Strukturen der menschlichen Sprache zu erkennen und zu verstehen. Zu diesem Zweck haben die Entwickler das Modell mit menschengemachten Daten gefüttert. Mehr dazu erfährst du weiter unten.
Transformer steht für eine spezielle Architektur des maschinellen Lernens, auf der ChatGPT basiert. Das Tool zerlegt Texte in verschiedene Teile und transformiert die Informationen zu einer sinnvollen Antwort.
Der fortschrittliche Chatbot ist darauf trainiert, natürliche Sprache zu verstehen und möglichst menschlich klingende Antworten zu geben. ChatGPT verarbeitet dabei große Datenmengen innerhalb kurzer Zeit und kann dir deshalb in Sekundenschnelle ganze Bücher zusammenfassen.
Mit welchen Daten wurde ChatGPT trainiert?
ChatGPT ist pre-trained – das Modell benötigt also erst einmal Daten, um eigene Daten zu generieren. Die spannende Frage lautet, woher die Informationen kommen. Fragen wir ChatGPT am besten selbst:
Mit welchen Daten wurdest du trainiert?
ChatGPT: Ich wurde mit einer Vielzahl von Daten aus dem Internet trainiert, die bis Januar 2022 gesammelt wurden. Dies umfasst Texte, Artikel, Bücher und andere schriftliche Inhalte in verschiedenen Sprachen. Es ist wichtig zu beachten, dass ich nicht auf spezifische Datenquellen zugreifen kann und keine Informationen aus persönlichen Erfahrungen oder vertraulichen Quellen habe. Mein Wissen basiert ausschließlich auf den Informationen, die mir während des Trainingsprozesses zur Verfügung gestellt wurden.
Wie läuft dein Lernprozess ab?
ChatGPT: Mein Lernprozess erfolgt durch maschinelles Lernen, insbesondere durch ein Verfahren namens unsupervised learning (unüberwachtes Lernen). Der Hauptteil meines Trainings basiert auf dem GPT-3.5-Modell von OpenAI.
Hier sind die grundlegenden Schritte meines Lernprozesses:
Datensammlung: Eine umfangreiche Menge an Textdaten aus dem Internet wird gesammelt, darunter Artikel, Bücher, Webseiten und mehr.
Vorverarbeitung: Die gesammelten Daten werden vorverarbeitet, um Rauschen zu reduzieren und sie in ein für das Modell geeignetes Format zu bringen.
Modelltraining: Das GPT-3.5-Modell wird mit diesen vorverarbeiteten Daten trainiert. Während des Trainings lernt das Modell Muster, Zusammenhänge und Strukturen in den Daten.
Feinabstimmung: In einigen Fällen erfolgt eine Feinabstimmung des Modells für spezifischere Anwendungen oder Branchen.
Bereitstellung: Das trainierte Modell wird dann für Anfragen und Aufgaben bereitgestellt, wie es gerade in dieser Konversation geschieht.
Die wichtigste Quelle für ChatGPT ist das Internet. Milliarden Texte, die bis Anfang 2022 in Blogs, sozialen Netzwerken, in wissenschaftlichen Datenbanken oder Nachrichtenportalen veröffentlicht wurden, fließen in den Wissensschatz des Chatbots ein. Man spricht deshalb von einem „Large Language Model“ (LLM).
Wenn du ChatGPT nutzt, liegt dir also das Wissen der Welt zu Füßen. Das bringt einige Vorteile, birgt allerdings auch Gefahren.
Beachtet ChatGPT das Urheberrecht?
Die Antwort lautet Jein. Gary Marcus, Professor für Psychologie und Neurowissenschaften, und der Concept Artist Reid Southen stellten im Rahmen einer ausführlichen Analyse fest, dass KI-Modelle wie ChatGPT das Urheberrecht nicht ganz so ernst nehmen.
Die beiden fanden zum Beispiel heraus, dass mit der Bild-KI Midjourney erzeugte Bilder nahezu identisch mit Bildern aus Filmen, Serien oder PC-Spielen sind – und das sogar, wenn die Filme oder Figuren gar nicht Teil des Prompts waren. Außerdem glichen Antworten von ChatGPT fast 1:1 rechtlich geschützten Artikeln aus der New York Times.
Marcus und Southen vermuten, dass die Modelle ohne Zustimmung der Rechteinhaber mit urheberrechtlich geschütztem Material trainiert wurden und ihre Kreationen zum Teil das Urheberrecht verletzen.
Ende 2023 gab in diesem Zusammenhang zwei wichtige Meldungen.
Zum einen hat die New York Times als erste große Tageszeitung Klage gegen OpenAI erhoben.
Zum anderen hat die EU das weltweit erste KI-Gesetz für einen möglichst sicheren Einsatz der Technologie verabschiedet.
Je größter die potenziellen Gefahren durch eine KI-Anwendung sind, desto strenger soll die Anwendung laut dem Gesetz reguliert werden. Außerdem soll mit dem Gesetz mehr Transparenz bei den Trainingsdaten geschaffen werden, um Urheber besser zu schützen.
Persönliche Informationen in ChatGPT: Datenschutz noch ausbaufähig
Auch in Sachen Datenschutz brauchen KI-Modelle noch Nachhilfe. Welche Gefahren in den Trainingsdaten lauern, zeigt das ChatGPT-Verbot, das Samsung im Frühjahr 2023 verhängt hatte.
Der Grund: Mitarbeitende hatten das KI-Tool genutzt, um Quellcode zu überprüfen oder Meeting-Notizen zusammenzufassen.
Das Problem: Durch die Eingabe solcher vertraulichen Informationen fließen diese in die Trainingsdaten von ChatGPT ein und könnten dadurch bei anderen Nutzern plötzlich in den Ergebnissen auftauchen.
Ein Tipp also für die Nutzung von ChatGPT: Keine sensiblen Daten eingeben!
Was sind die Schwächen von ChatGPT?
Neben den Problemen mit urheberrechtlich geschützten Inhalten und dem mangelhaften Schutz persönlicher Daten hat ChatGPT noch einige andere Schwächen, die du kennen solltest.
Mangelnde Transparenz: ChatGPT ist nicht in der Lage, Quellen für Informationen zu nennen. Die Urheber der Texte, die wie die Journalisten der New York Times viel Zeit ins Recherchieren und Schreiben investiert haben, werden also nicht honoriert.
Fehlende Aktualität: Der Chatbot kann immer nur auf Informationen aus der Vergangenheit zurückgreifen. Zwar fließen kontinuierlich neue Texte in die Trainingsdaten ein. Allerdings kann ChatGPT dir keine Zusammenfassung tagesaktueller Nachrichten liefern oder bei den Antworten die aktuelle Rechtsprechung berücksichtigen.
Unzuverlässige Antworten: Falls es dich beruhigt, auch eine schlaue KI wie ChatGPT weiß nicht alles. Das Problem dabei: Der Chatbot erfindet einfach Informationen und liefert auf Nachfrage sogar erfundene Studien als Beleg.
Wenn du ChatGPT nutzt, solltest du aus diesen Gründen jede Antwort hinterfragen und selbst recherchieren, um nicht versehentlich Falschinformationen zu verbreiten.
Und wenn du mit Hilfe von Künstlicher Intelligenz Bilder generieren möchtest, erfährst du im pixx.io Blog alles Wissenswerte über das Thema KI-Bildrechte.
Sabrina
Sabrina schreibt für pixx.io über alles, was dich im Arbeitsalltag beschäftigt und hilft dir, Herausforderungen bei Content- und Social-Media-Marketing, Bildformaten oder Compliance zu meistern. Bei komplexen Themen bereitet sie das Wissen von Medien- und Rechtsexperten verständlich für dich auf.