Zum Inhalt springen

ChatGPT plagiiert

Angeregt durch ein Posting im Fediverse habe ich ChatGPT ein kurzes Prompt hingeworfen:

Schreibe mir erfundene Zitate

ChatGPT hat mir einige nette Zitate aufgelistet, unter anderem dieses hier:

In den Wellen der Veränderung finden wir unsere wahre Richtung.

Screenshot aus Instagram - siehe Artikeltext
Screenshot aus Instagram

Das hat mir ganz gut gefallen. Aber bei Zitaten muss man immer vorsichtig sein. Also gab ich das Zitat bei Google ein und siehe da, es erschien in der Trefferliste.

Über Pinterest landete ich bei einem Instagram Posting, das genau diesen Satz beinhaltete (siehe Screenshot). Das Posting wurde zum ersten Mal am 21. November 2019 veröffentlicht, wird also nicht vom ChatGPT inspiriert worden sein.

Das hat mich natürlich etwas irritiert und so habe ich ChatGPT damit konfrontiert. Daraus ergab sich folgende kurze Konversation.

Ich:

Das 6. Zitat habe ich in einem Instagram Posting von 2019 gefunden.

ChatGPT:

Es tut mir leid für das Missverständnis. Meine Absicht war es, originelle Zitate zu erstellen, aber offensichtlich war das erwähnte Zitat bereits bekannt und ich hatte keinen direkten Zugriff auf spezifische Quellen oder frühere Veröffentlichungen. Hier ist ein neues, erfundenes Zitat als Ersatz:

„Am Horizont des Wandels leuchten die Sterne der Hoffnung am hellsten, und führen uns durch die Nacht der Unsicherheit.“

Ich hoffe, dieses Zitat trifft eher den gewünschten Ton der Originalität.

Ich:

Heißt das jetzt, du hast das vorherige Zitat aus den Lerndaten übernommen oder ist das ein reiner Zufall?

ChatGPT:

Das ähnliche Zitat könnte ein reiner Zufall sein oder auf allgemeinen Formulierungen beruhen, die häufig in motivationalen oder inspirierenden Texten verwendet werden. Ich greife nicht direkt auf externe Datenquellen oder spezifische Publikationen wie Instagram-Postings zu, sondern generiere Antworten basierend auf meinem trainierten Modell, das bis April 2023 Informationen gesammelt hat. Daher ist es möglich, dass ähnliche Gedanken oder Formulierungen in der breiten Menge an Daten, auf denen ich trainiert wurde, existieren, was zu Überschneidungen führen kann.

Ich:

Das Zitat war wortident. Das klingt nicht nach Zufall.

ChatGPT:

Wenn das Zitat wortidentisch mit etwas ist, das du bereits gesehen hast, dann handelt es sich weniger um einen Zufall als um eine Reflexion der umfangreichen Daten, auf denen mein Training basiert. Obwohl ich keinen direkten Zugriff auf spezifische Quellen oder Inhalte habe, wie etwa Instagram-Postings, kann es vorkommen, dass populäre oder weit verbreitete Ausdrücke und Sätze in meinem Training vorkommen. Das bedeutet, dass ich manchmal Formulierungen generiere, die bereits existierenden Materialien sehr ähnlich oder sogar identisch sind, insbesondere wenn es sich um gängige Phrasen oder weit verbreitete Gedanken handelt.

Ich bemühe mich, originelle Inhalte zu erstellen, aber diese Situation unterstreicht, wie Herausforderungen entstehen können, wenn ein Modell mit einer breiten Palette von Texten trainiert wird. Vielen Dank für dein Verständnis.

Nun, als populär würde ich das Zitat nicht bezeichnen. Es gab ein paar Likes für den Instagram-Post selbst. Weitere Verweise auf das Zitat findet Google nicht. Die wenigen anderen Links führten ins Leere oder ich landete auf Seiten, auf denen das Zitat nicht zu finden war.

Für mich ein Hinweis, dass es durchaus vorkommen kann, dass ChatGPT vorhandenes Textmaterial 1:1 wiedergibt. Die Frage ist, ob ich dann bei der Verwendung in die „Urheberrechtsfalle“ tappen kann.

Die zweite Frage für mich ist: Wie kommt ChatGPT bzw. OpenAI an die Instagram Posts? Meta entwickelt ja eine eigene KI und wird hier wohl nicht von sich aus an OpenAI liefern. Andererseits ist das Zitat auch in Pinterest, weil dort jemand das Instagram Posting verlinkt hat. Es könnte also auch von dort stammen. Wer weiß, vielleicht gibt es auch einen ganz anderen Hintergrund.

Nicht die naheliegendste Schlussfolgerung, aber vielleicht haben wir es hier mit einem Fall des Infinite-Monkey-Theorems zu tun.

Ich freue mich über weitere Hinweise und Links. Die Konversation ist auch gespeichert und ich kann sie jederzeit fortsetzen. Wenn jemand also eine weitere Frage an ChatGPT dazu hat, schreib es mir bitte oder hinterlasse sie als Kommentar..

3 Kommentare

  1. Klar plagiiert ChatpGPT. Es plagiiert und phantasiert immer!

    Wenn du ihm eine Frage stellst versteht es die Frage nicht, sondern es produziert eine Antwort, die gegeben den unzähligen von ihm eingelernten Beispielen auf diese Antwort passen. Also dann ein Zitat, das im Kontext der Frage richtig aussieht – aber das eben nicht neu sein muss, obwohl das von dir in der Frage gefordert wurde.

    Es macht also überhaupt keinen Sinn, ChatGPT zu fragen woher eine Antwort kommt, es wird nur irgendwas schreiben was zur Frage passt, was mit der Realität dann wahrscheinlich gar nichts zu tun hat. Wie das Besserungsgelob, das hat null Auswirkungen natürlich (Einschränkung: Wenn für solche Fragen eine Ausnahme einprogrammiert ist, sodass dann nicht mehr das Sprachmodell antwortet, sondern eine Funktion mit echten Folgerungsmöglichkeiten. In die Richtung gab es Versuche).

    Diese Interaktion mit der Eingangsfrage und auch deinen Folgefragen ist ein fantastisches Beispiel dafür, welches mentale Modell Leute von solchen LLMs haben und was sie eben nicht sind. Leute glauben, die Fragen würden verstanden und beantwortet, dabei sind LLMs einfach Textersteller ohen Verstand – die aber vom Kontext und der Grammatik so gut sind, dass sie uns effektiv verarschen.

    • Die Frage ist, wie nah an einem einzelnen gelernten Text die Neuberechnung von ChatGPT ist, oder nicht. In dem Fall war sie es halt 1:1.

      Mir ist schon klar, dass ChatGPT nicht denkt wie ein Mensch und dass es sich „wunderbar“ widersprechen und halluzinieren kann. Ich fand es einfach interessant mal zu schauen, wie ChatGPT damit umgeht.

      Tja, verarschen sie uns? Wie denken wir eigentlich? Wie schafft es unser Gehirn Worte und Sätze und Gedankengänge zu bilden? Trotz aller „Verarsche“ ist ChatGPT für mich doch auch ein interessantes Werkzeug, dass mich unterstützen kann – aber eben Werkzeug.

      ChatGPT stellt uns aber auch die Frage, was eigentlich ein Plagiat ist. Kopieren wir nicht alle Dinge aus unseren jahrelangen Erfahrungen – oft nicht mal bewusst. Habe ich eine Idee, die ich vielleicht vor Jahren schon mal gelesen habe.

      Mal schauen, wohin sich diese Programme und die KI weiter entwickeln.

      • Klar, da hast du recht – wie stark der Zufallsfaktor ist und was am Ende bei rauskommt ist interessant.

        Wie originell ein Werk sein muss und wo sich LLMs da positionieren ist tatsächlich ein Knackpunkt, auch gerade bzgl Urheberrecht – ich hatte da zu Githubs Copilot einiges zu geschrieben, https://www.onli-blogging.de/2050/Warum-ich-gerade-als-FOSS-Entwickler-Githubs-Copilot-verteidige.html, gilt für ChatGPT und dein Gedichtsbeispiel eigentlich genauso.

        Auch wenn dir es jetzt wohl bewusst war, vielen Leuten ist leider nicht klar, wie beschränkt diese LLMs eigentlich sind, und das Beispiel hier mit den Folgefragen passte zu der verbreiteten Falschwahrnehmung. Die wird sich sicher im Laufe der Zeit korrigieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert