top of page
AutorenbildChristoph Heilig

Realitätscheck Gedicht: Was sich die KI zusammenreimt

Aktualisiert: 17. Mai

In den letzten Tagen stellten gleich zwei KI-Giganten Neuerungen vor: OpenAI präsentierte GPT-4o, Google versuchte mit der schieren Menge (oft erst noch bevorstehender) Innovationen zu beeindrucken. In der öffentlichen Wahrnehmung dominierte die Präsentation von OpenAI. Natürlich war gleich wieder die Rede davon, es sei jetzt „AGI“ erreicht, also eine KI, welche „die Fähigkeit besitzt, jede intellektuelle Aufgabe zu verstehen oder zu lernen, die ein Mensch ausführen kann.“ Davon kann freilich nicht im Ansatz die Rede sein. GPT-4o erledigt manche Aufgaben marginal besser als GPT-4. Es ist aber zehnmal näher an GPT-4 als an dem ominösen GPT-5, das dann irgendwann kommen soll. Man kann die Präsentation von GPT-4o daher eigentlich nur in zwei Weisen deuten: Entweder, OpenAI hat im letzten Jahr tatsächlich recht wenig Fortschritt erzielt – dann dürften wir auf GPT-5 noch eine ganze Weile warten müssen – oder es wird bewusst tiefgestapelt, nachdem die Enttäuschung nach GPT-4 doch recht groß war: Zwar war GPT-4 eine klare Verbesserung gegenüber GPT-3.5, aber der große kommerzielle Einsatz und die damit einhergehende Revolution der Arbeitswelt blieb aus. Für den Moment kann man auf jeden Fall festhalten, die Neuerungen von OpenAI zielen vor allem auf breitere Anwendungsgebiete und erleichterte Zugänglichkeit ab. Leider enttäuscht auch hier die Presse wieder sehr, was die Berichterstattung angeht. Wer schreibt, dass ChatGPT jetzt plötzlich sprechen könne, zeigt nur, dass er oder sie das wohl das ganze letzte Jahr über noch nicht selbst ausprobiert hat.


Besonders bemerkenswert an den Google-Ankündigungen sind (neben allerlei Versprechungen für die Zukunft) auch die Tatsache, dass Gemini 1.5 pro nun mit 1 Millionen Tokens Kontext jedem zur Verfügung steht, der bereit ist, dafür ein paar Euro zu zahlen. Das ist durchaus eine Entwicklung, die man nicht all zu schnell als Selbstverständlichkeit hinnehmen und abhaken sollte. Vor einem Jahr träumten wir noch von 32.000 Tokens. Und jetzt kann jedermann bei Gemini ein Buch mit ca. 750.000 (Englischen) Wörtern eingeben und dazu hochspezifische Fragen stellen – und wird diese sehr zuverlässig beantwortet bekommen. Allerdings: Für hochkomplexe Analysen ist hier das Sprachmodell selbst einfach noch nicht gut genug. Da hilft dann auch der große berücksichtigte Kontext nicht. Sprich: Von einem Ersatz klassischer Methoden der „digital humanities“ in der Forschung kann noch keine Rede sein. Noch nicht. Das ist allerdings auch nicht das Ziel. Es zeichnet sich vielmehr eine ganz klare Strategie ab, nämlich KI-Systeme in bestehende Google-Produkte zu integrieren. Sodass man dann beispielsweise die bei Google gespeicherten Fotos nach bestimmten Ereignissen abfragen kann (z.B.: „Wann habe ich das letzte Mal Wein getrunken?“). Der große Vorteil, den Google gegenüber OpenAI hat: Dazu müssen die Systeme nur eine Verbesserung des Services darstellen, nicht perfekt funktionieren. Damit Unternehmen aber ganze Arbeitszweige an GPT auslagern, muss das Sprachmodell zuverlässig regelbasiert arbeiten. Und das ist nun schlichtweg noch nicht der Fall.


Und damit kommen wir endlich zum eigentlichen Thema dieses Blogposts. Denn interessanterweise kann man diesen fundamentalen Punkt gut illustrieren, wenn man sich anschaut, wie große Sprachmodelle dichten. Die Texte, welche diese Chatbots mittlerweile generieren können, sind beeindruckend: nicht nur grammatikalisch und orthographisch korrekt, sondern auch wohlgeformt und kontextangemessen. Gerade wenn es um das Reimen geht, stoßen sie jedoch noch sehr deutlich an ihre Grenzen. Das muss man bei allem Fortschritt also durchaus auch festhalten: Stand jetzt gibt es noch kein Sprachmodell, das zuverlässig ein deutsches Sonett produzieren könnte – und zwar selbst dann, wenn man keine besonderen poetischen Qualitätsvorgaben voraussetzt. Das Grundproblem für große Sprachmodelle ist, dass sie aus Trainingsdaten Wahrscheinlichkeitsmuster extrahiert haben. Lässt man ein Gedicht beispielsweise zum Thema „Frühling“ schreiben, so weiß das Sprachmodell durchaus, welche Wörter im Hinblick auf ihre Bedeutung an der jeweils nächsten Stelle im Text plausibel sind. Aber zugleich gilt es ja auch noch ein Reimschema zu beachten. Und die Texte, auf deren Grundlagen die Sprachmodelle trainiert sind, sind im Regelfall eben durch semantische Kohärenz gekennzeichnet, also im Hinblick auf ihre Bedeutung gut durchstrukturiert. Formale Gesichtspunkte – wie Silbenzahl, Betonung und Endreime – spielen in den meisten Textsorten kaum eine Rolle, wenn es darum geht, welches Wort wir als nächstes wählen.


Lässt man ein Sprachmodell daher ein Sonett nach dem Reimschema [abba abba cdc dcd] oder [abba cddc eef ggf] produzieren, überfordert dies den künstlichen Dichter noch durchgehend. Wenn die Zeilen überhaupt reine Endreime aufweisen, dann beinahe immer noch dem Muster abab für die ersten beiden Strophen. Hier zeigt sich einmal mehr die „bias“ der großen Sprachmodelle für das Englische. Denn genau so hätte natürlich Shakespeare gereimt!


Und das Muster abba in der zweiten Strophe zu wiederholen und dabei Kohärenz zwischen den verschiedenen a-Zeilen zu gewährleisten, das überfordert auch die angebliche „AGI“ GPT-4o noch sehr deutlich. Hier wäre etwa ein Beispiel zum Thema Frühling, das sich auch nach mehreren Korrekturdurchgängen nicht weiter verbessern ließ:


In stiller Nacht, da Träume leis' erwachen, Wo Mondenschein den dunklen Wald erhellt, Ein Stern am Himmelszelt die Welt erhält, Die Schatten fliehen, um den Tag zu machen.


Die Blumen neigen sanft sich im Verwehen,

Ein Flüstern zieht durch nächtlich' Blättermeer,

Und Stille herrscht, als ob die Zeit nicht wär',

Die Nacht umfängt die Welt mit sanftem Wehen.


Doch plötzlich bricht ein Strahl durch's Blätterdach,

Erweckt die Welt zu neuem Leben schnell,

Ein neuer Tag beginnt, die Erde lacht.


So ruht mein Herz in Nacht und Sternenpracht,

Bis Lieb' und Hoffnung strahlen hell und klar,

Erfüllt die Welt mit Glanz und Wunder gar.

 

Hier zeigt sich ganz klar: Die Wahrscheinlichkeitswerte für die jeweils nächsten Wörter (bzw., genauer, Tokens) sind so sehr von semantischen Mustern geprägt, dass die bloße Nennung des Wortes „Sonett“ oder des gewünschten Reimschemas schlicht nicht ausreicht, um die Werte in diesem Kontext so anzupassen, dass ein den Regeln entsprechender Text produziert wird.


Will man trotzdem ein KI-Sonett, muss man das Sprachmodell daher zwingen, regelbasiert vorzugehen, muss es also dazu bringen, zunächst sich reimende Endwörter für die entsprechenden Zeilen zu finden und dann dazu passende Zeilen zu dichten. Das ist mit etwas technischem Aufwand durchaus möglich. Wie sehr Anspruch und Wirklichkeit bei OpenAI jedoch auseinanderklaffen, wird deutlich, wenn man versucht, ein benutzerdefiniertes GPT zu kreieren, welches diese Schritte durchläuft. Ich habe einen ganzen Tag lang versucht, einen zuverlässig arbeitenden „Sonettmeister“ (nicht mein Namensvorschlag) zu kreieren. Man kann ihn hier testen. Ohne thematische Vorgabe hatte er etwa diesen Text produziert, den man vielleicht schon „Sonett“ zu nennen gewillt sein könnte:


Im Abendrot

Durch Wälder schreitet leis’ der Abendhauch,

Der Tag versinkt in Purpurschleiern mild,

Der Himmel brennt in Glut, die Sterne, schild-

Wach überm Dunkel, flüstern Nachtgebrauch.


Es rauscht das Laub, der Wind erzählt vom Rauch

Vergangner Zeiten, Sehnsucht zart gefild,

Wo ungestillt das Herz nach Freiheit schilft,

Und in der Ferne ruft der Eule Bauch.


So fließt der Strom, gedankenreich und weit,

Versunken tief in des Vergessens Schoß,

Der Mond auf silbernen Gefilden reit.


Der Seele Echo in der Dämmerung bloß,

Erhebt sich, schwingt durch Zeit und Ewigkeit,

Ein Lied der Stille, süß und grenzenlos.


Mit viel Wohlwollen könnte man hier August Wilhelm Schlegel heraushören … An dieser Stelle daher auch ein Bild, das Midjourney zu Dichter und Periode liefert:

Nur leider klappt es mit der Reproduzierbarkeit so gar nicht gut. Dass die damals viel gehypten GPTs (die Behauptung, Leute würden Millionen mit gut konstruierten GPTs machen, war damals in aller Munde!) nicht einmal einen so wenig komplexen Prozess zuverlässig umsetzen können, zeigt, wie weit wir hier davon entfernt sind, dass GPT-Systeme wirtschaftlich relevante Abläufe automatisieren könnten.


Für diejenigen, die selbst kreativ schreiben bedeutet all dies ironischerweise: Wer strengen Regeln folgende Genre-Literatur produziert, ist momentan am sichersten! Das ist ziemlich genau das Gegenteil, was einige Expertinnen und Experten dem Buchmarkt prognostiziert hatten.  Romance und Kriminalromane etwa folgen klaren Vorgaben, was die Ausgestaltung – unter anderem – des Plots angeht. Intuitiv meinten Viele, ein „stochastischer Papagei“ könne doch am ehesten solche Texte produzieren, würde einfach diesen starren Mustern folgen. Es ist letztlich aber genau anders herum: Je eingeengter die vom Genre vorgegebenen Rahmenbedingungen sind, desto stärker fällt jede Abweichung auf. Am überzeugendsten menschliche Literaten imitieren können große Sprachmodelle daher ironischerweise gerade, wenn es um E-Literatur geht. Damit ich nicht falsch verstanden werde: Kein Sprachmodell ist auch nur im Ansatz in der Lage, etwas so Komplexes und zugleich Kohärentes zu erschaffen wie etwa Jenny Erpenbecks „Heimsuchung“. Aber der Bereich der gehobenen Belletristik ist groß. Und der Punkt ist eben genau der, dass hier der eingeschlagene Weg nicht direkt verrät, welche Wege alle nicht gegangen wurden und vielleicht für das Sprachmodell gar nicht beschreitbar waren. Was kontrafaktisch noch literarisch möglich gewesen wäre, faktisch aber nicht umgesetzt wurde (weil es nicht umgesetzt werden hätte können), interessiert nicht, wenn das Endresultat literarisch anspruchsvoll erscheint. (Mehr dazu bald auf der „narrativa“ in München, wo ich auch sprechen werde und wo man sich nun anmelden kann.)


Um es nochmal auf den Punkt zu bringen: Das Problem von großen Sprachmodellen, wenn es um die Produktion von Literatur geht, ist also keinesfalls – wie oft und fälschlich behauptet – deren fehlende Kreativität. Was sie tatsächlich vor Herausforderungen stellt, ist das Beachten von formalen Regeln. Das wird auch weiterhin für einige Zeit so bleiben – bis wir „KI-Agenten“ haben, von denen Google jetzt schon spricht, als wären sie schon da. Mal schauen. Wenn große Sprachmodelle Texte in mehrstufigen Prozession – inklusive Revisionsschlaufen – produzieren können, dann könnte das Resultat schon ganz anders aussehen.


Bis dahin kann man sich noch mit einem kleinen Trick behelfen. Denn eine gute Sache haben die so enorm angewachsenen Kontext-Fenster ja tatsächlich – nämlich, dass man das große Sprachmodell nun mit vielen Beispielen füttern kann. Auch wer sich technisch nicht in der Lage sieht, ein Sprachmodell zu „finetunen“, kann somit durch die vielen Illustrationen einen Kontext erschaffen, indem die Antwort auf den Prompt dann etwas in die gewünschte Richtung bugsiert wird. Dass hier viel Potenzial steckt, zeigt ein Google-Forschungsartikel, der vor ziemlich genau einem Monat als Preprint erschien. Auf den Punkt gebracht, wurde hier gezeigt, dass für die meisten Aufgaben, die dem Sprachmodell gestellt wurden, die Qualität der Antwort kontinuierlich stieg, je mehr Beispiele mit Lösungen im Vorhinein im selben Chatfenster zur Verfügung gestellt wurden. Ich habe dies mit dem Opus-Modell von Claude (der Firma Anthropic) ausprobiert, in der Version, die 200.000 Tokens Kontext berücksichtigen kann, habe ich es mit gut 50 Sonetten von August Wilhelm Schlegel gefüttert. Das Reimschema abba abba cde cde wurde dann wie folgt umgesetzt:

 

Des Frühlings Kinder, zarte Blumentriebe,

Erschließen hold dem Licht die bunten Kronen,

Wenn Zephyrs Hauch erweckt ihr süßes Tonen

Und neu entflammt der Nachtigallen Liebe.

 

So blüht empor auch meiner Seele Liebe,

Wenn deiner Schönheit Strahlen mich belohnen.

In Liedern will ich deinen Reiz besonen,

Auf dass unsterblich meine Huldin bliebe.

 

Die Blumen welken und der Lenz entschwindet,

Der Sängerin Lied muss bald verklungen sein,

Doch ewig wird dein Bildnis mich erfreuen.

 

Tief in des Herzens Schrein sei es gegründet,

Und leuchte mir mit diamantnem Schein,

Ein Talisman, den Himmelsmächte weihen.

 

Schon besser. Oder?

 

Google-Gemini-1.5 ist stilistisch ebenfalls recht treffsicher, versemmelt aber das behauptete Reimschema abba abba cdc dcd auch vor dem Hintergrund der bereitgestellten Sonette noch immer:


Die Muse

 

Sie schwebt heran auf leisen Schwingen, leicht,

Ein Hauch von Duft, ein Schimmer, sanft und rein,

Und flüstert mir ins Ohr ein Lied, so fein,

Dass meine Seele ganz dem Zauber neigt.

 

Sie malt mir Bilder, farbenfroh und weit,

Von fernen Landen, wo die Palmen wehn,

Von blauen Meeren, wo die Möwen drehn,

Und füllt mein Herz mit Sehnsucht und mit Leid.

 

Doch wenn ich greife, will sie mich entfliehn,

Wie Nebel, der im Wind sich aufgelöst,

Und lässt mich einsam, leer, zurück, betrübt.

 

So irr' ich weiter, suchend, ohne Rast,

Nach jenem Licht, das mich so tief berührt,

Und hoffe, dass die Muse mich erlöst.

 

Immerhin ist Shakespeare’s abab jetzt in den Hintergrund getreten! Und zugegeben: Die möglichen 1 Millionen Tokens Kontext habe ich mit dem nur ca. 8000 Wörtern umfassenden Schlegel-Korpus freilich nicht ausgereizt. Wer jetzt nach Lektüre dieses Beitrags ganz viel Muse hat, kann das Experiment ja selbst noch weitertreiben. Bis dahin gilt: Große Sprachmodelle sind beeindruckend und sollten uns zum Nachdenken bringen. Werbeveranstaltungen für KI-Produkte darf man aber nicht als zukunftsgewissen Prophetien über revolutionäre Umwälzungen nehmen. Und was dazu durch soziale Medien und die Presse geistert, ist leider meistens falsch. 

Comments


bottom of page