Und die KI schreibt doch Bücher!
- Christoph Heilig
- 18. März
- 9 Min. Lesezeit

Es ist beinahe so, als hätte Sam Altman, CEO von OpenAI, extra für die Leipziger Buchmesse nochmal so richtig die Diskussion zu KI und Literatur befeuern wollen, als er neulich auf X von einem ominösen neuen Modell sprach, das seine Firma gerade trainiere und das besonders gut im kreativen Schreiben sein solle. Anders als bei anderen Andeutungen großer Fortschritte, wurde diesmal sogar gleich die Evidenz mitgeliefert, die erste KI-Kurzgeschichte, die ihn, Altman, zum ersten Mal so richtig berührt habe.
Selbst Kollegen wie Eliezer Yudkowsky waren allerdings nicht so überzeugt, boten ihre menschlichen Alternativgeschichten als doch deutlich überlegen zum Vergleich an. Es gab aber durchaus auch ernstzunehmende literarische Stimmen, wie etwa Jeanette Winterson, die dem Text etwas abzugewinnen vermochten. Und für diejenige Partei, welche gar nicht genug davon bekommen konnte, zu betonen, wie schlecht die KI doch schreibe, wurde es dann doch etwas peinlich, als gleich auch noch ein weiterer vermeintlicher KI-Text mitgebasht wurde, bei dem es sich allerdings um ein Zitat von Ayn Rand handelte.
Im Eifer ihrer KI-Häme verpassten die KI-Kritiker:innen dabei eine Sache, die es tatsächlich wert gewesen wäre, herauszustellen: dass nämlich Sam Altmans Post in der Tat eine erstaunliche Naivität im Hinblick darauf offenbarte, was Literatur ist und was technisch nötig ist, um sie automatisiert produzieren zu können. Dass die KI-Entwicklung ein eher begrenztes Kulturverständnis hat, ist nun nicht gerade eine große Neuigkeit. Aber dass der CEO von OpenAI sich so unbedarft in die Karten schauen lässt und verrät, wie orientierungslos sein Unternehmen eigentlich nach kreativer KI fischt, ist schon erstaunlich. Denn, um es kurz zu machen, das Problem bei der automatisierten Produktion von KI-Texten steckt gar nicht eigentlich in erzählerischen Schwächen des Modells. Was sich vielmehr als heiliger Gral herauskristallisiert hatte, ist die Produktion erzählerischer Langformen wie Romane. Hier in einem einzigen Prompt einen kohärenten Plot und eine plausible Charakterentwicklung über das gesamte Manuskript hinweg generieren zu lassen ist bisher nicht möglich. Ein Modell, das nun marginal bessere (CEOs mehr berührende) Kurzgeschichten produziert, ändert hier am Status quo eigentlich recht wenig.
Freilich – so wenig Altman von Literatur versteht, so wenig verstehen die KI-Kritiker, die aus der Literatur kommen, oft von KI. Etwaige anstehende Konkurrenz zwischen Mensch und Maschine beiseite zu wischen, indem man jetzt (zurecht) Zweifel an der Aussagekraft der von Altman vorgelegten Evidenz anmeldet und zugleich (zu Unrecht) einfach voraussetzt, KI wäre qualitativ ja eh noch meilenweit von menschlichen Autor:innen entfernt, finde ich mindestens ebenso problematisch und von Unkenntnis zeugend.
Erst neulich lies Sebastian Fitzek etwa verlauten, bei Literatur könne KI „nur grobe Vorarbeit leisten.“ Das finde ich schon eine spannende Aussage von jemandem, von dem es letztes Jahr noch im Bericht über einen von ihm gehaltenen Vortrag hieß, er habe „viele Programme zu KI ausprobiert.“ Was für Programme sollen damit gemeint sein? Etwa die im Internet verfügbaren Chatbots, wie ChatGPT? Anscheinend, denn es wird konstatiert: „Einfach ‚Schreib mir mal einen Roman von Sebastian Fitzek‘ funktioniert nicht.“ Das ist nun freilich so wenig verblüffend, wie es richtig ist. Was hingegen wirklich Erstaunen auslösen sollte, ist, dass wir uns im Jahr drei nach der Einführung von ChatGPT befinden und man in der Buchbranche die Leistungsfähigkeit großer Sprachmodelle immer noch daran zu bemessen scheint, wie gut ein auf Konversation abgestimmter Chatbot darin ist, auf Anfrage Erzählwerke zu produzieren. Woher kommt die Idee, dass einem das einen realistischen Einblick in das tatsächliche Potenzial der Technologie gibt? Vielleicht liegt es an der merkwürdigen Evolution, welche die Speziesder KI-„Expert:innen“ in diesem Bereich genommen hat – ohne Selektionsdruck brauchte es keine evolutionären Schlüsselinnovationen, um diese ökologische Nische zu besetzen. In anderen wirtschaftlichen Bereichen wäre das undenkbar. Niemand käme doch auf die Idee, den Nutzen großer Sprachmodelle etwa für die Kundenkommunikation auf einer solchen Plattform selbst zu testen. Bei solchen Einsatzgebieten versteht jeder, dass Firmen ihre eigene Software entwickeln oder kaufen und diese im Hintergrund (über sogenannte „API calls“) auf GPT und andere Modelle zugreift. Woher sich hartnäckig die Idee hält, man wüsste, ob „KI“ Bücher schreiben könne, weil man mal eben so (oder, wie betont wird, „ausführlich“) mit ChatGPT gechattet hat, ist mir wirklich ein Rätsel.
Als jemand, der unter anderem zu genau dieser Frage forscht, ob, wie und mit welchen gesellschaftlichen Konsequenzen KI dem Menschen in der Textproduktion Konkurrenz machen kann, muss ich daher dem von Fitzek gechannelten Konsens entgegenhalten: Doch, „die KI“ kann mittlerweile sehr wohl Bücher schreiben und es ist absolut absehbar, dass diese Texte bald schon auch von Expert:innen nicht mehr von Produkten menschlicher Top-Autor:innen unterschieden werden können.
Diese Annahme basiert auf den folgenden Beobachtungen:
Erstens zeigen Studienergebnisse zu divergenten und konvergenten Prozessen – die beiden Grundpfeiler kreativer Gedankengänge – dass spätestens mit GPT-4 90% der Menschen (oder mehr) nicht mehr mit großen Sprachmodellen mithalten können. Das ist nun wirklich ein alter Hut. Dass also ausgerechnet oft die „mangelnde Kreativität“ von KI ins Feld geführt wird, wenn man belegen möchte, dass menschliche Autor:innen keine Konkurrenz zu befürchten haben, ist zumindest befremdlich. Mein Eindruck ist: Hier werden eigene kleine Experimente mit ChatGPT und – in der Tat oft – ernüchternde Ergebnisse als Symptome grundsätzlich mangelnder Kreativität fehlinterpretiert. Nur weil man selbst kreativ ist (das sind die meisten Autor:innen, wenn auch nicht alle zu besagten 10% gehören dürften), heißt das nicht, dass man Kreativität besonders gut erkennen kann. Oft sind es ganz andere Schwächen – abstellbare Schwächen, die oft vom Alignment her kommen – die hier fehlgedeutet werden. Wer es nicht glaubt, kann ja einfach mal die eigene Kreativität testen lassen – und sich dann mit führenden Sprachmodellen vergleichen. Die Tests gibt es im Internet frei verfügbar.
Zweitens gibt es mittlerweile auch schon eine stark angewachsene Forschungsliteratur, die ganz konkret menschliche und maschinelle Erzähler:innen gegeneinander antreten lässt und prüft, wie echte Leser:innen darauf reagieren. Der Grund-Tenor bisher war (und ist mit Abstrichen auch heute noch): Wenn es sich bei den Rezipient:innen um Profis handelt, die in der Literaturbranche tätig sind, und wenn die schreibenden Vertreter:innen, welche die menschliche Rasse ins Feld schickt, professionelle Autor:innen sind, dann haben „wir“ tatsächlich die Nase vorn.
Letztlich sehen wir dieses Muster übrigens auch in vielen anderen Bereichen: KI ist etwa auch lustiger als die meisten Menschen, aber trotzdem deutlich weniger lustig als die lustigsten Menschen – und diese wiederum profitieren nicht, wenn sie zusätzlich noch KI einsetzen. Es ist schon ein erstaunliches Beispiel von „shifting the goalpost,“ dass wir im Jahr 2025 solche Ergebnisse als menschliches Primat untermauernd feiern. Ich sehe darin alles andere als einen Anlass für Hochmut. Es lohnt sich, ins_ Kleingedruckte zu schauen – oder auch überhaupt mal in die Studien selbst. Letztes Jahr ging etwa ein Experiment mit einem Seufzer der Erleichterung durch den Literaturbetrieb, das angeblich gezeigt habe, dass gute menschliche Autor:innen immer noch klar besser abschneiden würden als GPT-4. Dabei wird immer übersehen: Das Panel an professionellen Literaturkritiker:innen und -wissenschaftler:innen meinte einerseits auch, beinahe 46% der für das Experiment verfassten Texte des „Weltklasse“-Autors Patricio Pron seien nicht gut genug für eine Anthologie – immerhin beinahe 14% der spanischen GPT-4-Texte und ganze 18% der englischen desselben Modells hätten es gleichzeitig aber in die Anthologie geschafft! Man muss sich das auf der Zunge zergehen lassen: Ja, im Durchschnitt lag der Mensch im Kampf Pron vs. Prompt vorne, aber manche der KI-Texte wurden tatsächlich als besser als die menschlichen „Weltklasse“-Erzeugnisse eingeschätzt! Der „Deep Blue“-Moment der Literatur ist folglich schon längst da!
Drittens zeigt sich immer und immer wieder, wie stark Leute, die selbst im Literaturbetrieb stecken, die Fähigkeiten normaler Leser:innen überschätzen, KI zu erkennen, und wie wenig sie in der Lage sind, den Geschmack von Ottonormalverbraucher korrekt einzuschätzen. So sind große Sprachmodelle etwa in kaum etwas so grottig, wie im Dichten, und trotzdem konnte eine Studie zeigen, dass bereits KI-Imitate von GPT-3.5 (ja, 3.5 – diesem vorsintflutlichen Ding, das einem auch noch sagte, wie man Bomben baute!) gegenüber den Originalen von Größen wie Shakespeare, Byron und Eliot im Vorteil waren – sie wurden nicht nur für besser, sondern auch für menschlicher gehalten als die echten! Und diese menschliche Unfähigkeit, die billige Fälschung zu erkennen, war sogar unabhängig vom Bildungsgrad.
Viertens war über lange Zeit das Kontextfenster großer Sprachmodelle schlicht zu klein, als dass man damit irgendwie sinnvoll Romane hätte produzieren können. Da gab es etwa in der ersten Jahreshälfte 2023 noch allerlei Scharlatane, die behaupteten, man könne mal einfach so ein ganzes Buch zusammenprompten – und die dabei mit keinem Wort erwähnten, dass ChatGPT im zweiten Kapitel schon vergessen gehabt hätte, welche Figuren im ersten eingeführt worden waren. Heute hingegen stellt die Länge des Textes bei den meisten Genres kein großes Problem mehr dar. (Menschen hingegen produzieren ordentlich Inkonsistenzen in Plots, die es auch durchs Lektorat schaffen – unser eigenes „Kontextfenster“ ist nämlich auch sehr, wenn auch anders, begrenzt.)
Fünftens, wenn es um zu kreativem Schreiben taugliche Modelle geht, ist die Zukunft schon da! Sicher, es ist noch Luft nach oben. Aber GPT-4.5 ist bereits sehr gut im kreativen Schreiben (und meiner Meinung nach eigentlich nur darin – für alles andere ist es eher enttäuschend), Claude 3.7 auch. Ich bin mir sicher, Studienergebnisse werden bald zeigen, dass diese Modelle (mit den richtigen Parametern, die man innerhalb der Chat-Plattformen nicht einstellen kann!) in beschränkten Schreibaufgaben – etwa bestimmte Ausschnitte eines Plots zu verschriftlichen, usw. – besser abschneiden als durchschnittliche Schriftsteller:innen. Ja, auch diese Modelle greifen öfter noch stilistisch etwas daneben. Aber: Wie auch bei der Debatte ums Übersetzen, bringt es wenig, Fehler der KI zu betonen, wenn man gleichzeitig einen blinden Fleck für menschliche Unzulänglichkeiten hat.
Und wo die KI – mit bereits bestehenden Modellen – mittlerweile die Nase sogar vorne haben dürfte, ist das Plotten und Worldbuilding, und zwar wegen der „reasoning“-Modelle (zu denen hier). Während ein Autor/eine Autorin vielleicht tagelang über die nächste Wende im Plot sinniert, schreibt ein solches Modell innerhalb weniger Minuten und ohne irgendwelche Seelenqualen quasi eine ganze unsichtbare Monographie zur Frage, wie es am besten weitergehen soll. Mit dieser Gründlichkeit sind Halluzinationen jetzt Sache der menschlichen Autoren, ein Robinson Crusoe, der nackt zum Schiff schwimmt, nur um sich dort dann Kekse in die Taschen zu stecken, kommt hier nicht mehr vor. Und was das Worldbuilding angeht, steht nun jedem Autor ein Team an Expert:innen aller Fachbereiche zur Verfügung, das einem etwa – ein Beispiel aus der Pressemitteilung von OpenAI selbst – mal schnell eine linguistisch plausibel entwickelte Sprache 500 Jahre in der Zukunft skizzieren kann. Der Anspruch an die Qualität menschlicher Science Fiction muss mit diesen Mitteln auf jeden Fall dramatisch steigen, so viel ist sicher.
Sechstens muss man festhalten, dass es freilich möglich wäre, große Sprachmodelle mehr so zu trainieren, dass sie noch viel besser erzählen können. Momentan war das kein Fokus. Der lag darauf, Fähigkeiten in Mathematik und im Programmieren nachzuweisen, um im Wettbewerb der Unternehmen zu punkten. Würde man gezielt darauf trainieren, dass diese Modelle etwa Plot-Muster reproduzieren könnten, könnte man damit KI-Agenten ausstatten, die dann recht selbstständig Bücher schreiben würden. Nur, worauf ich hinauswill ist: In der Zwischenzeit können wir uns wirklich recht einfach auch ohne solche Spezialmodelle behelfen. Bücher schreiben ist schwierig, das weiß jeder, der es schon versucht hat. Es ist aber nicht kompliziert. Es gibt (a) tonnenweise Forschung zu den schriftstellerischen Praktiken von Autor:innen und (b) noch viel mehr Schreibratgeber, die auch tatsächlich von menschlichen Autor:innen im Verfassungsprozess herangezogen und befolgt werden. Beides lässt sich relativ einfach in Computerprogramme umsetzen, bei denen der Algorithmus dann an den richtigen Stellen große Sprachmodelle aufruft, um einzelne Schreibaufgaben zu erledigen. Diese einzelnen Entscheidungen erfordern viel mentale und emotionale Energie, wenn sie von Menschen getroffen werden. Sie in einem Programm zu linearisieren und sie dann einem Sprachmodell zu überlassen ist aber schlicht kein Hexenwerk. Geht man hier feingliedrig genug vor, verwendet man also die richtigen und genügend Zwischenschritte, und integriert man Feedback-Schlaufen und eine ausführliche Revisionsphase, dann kommen dabei Romane von durchaus beeindruckender Qualität heraus. Sie sind zumindest so gut, dass große Sprachmodelle sie für menschlich halten! Nun ist es zwar so, dass KI-Detektoren – für Hausarbeiten etc. – notorisch unzuverlässig sind. Das Verfassen von erzählerischen Langformen war bisher aber noch eine solche Herausforderung, dass man damit kaum eine KI hinters Licht führen konnte. Das ist jetzt anders. Mir scheint, GPT-4.5 und Claude 3.7 stellen hier einen Wendepunkt dar. Wie viele menschliche Leser:innen das überzeugt (/täuscht), kann ich noch nicht sagen – an dieser wissenschaftlichen Frage arbeite ich gerade. Aber meine Hypothese wäre: Wenn die aktuellen Sprachmodelle sich bei der Lektüre überzeugen lassen, wird das auch für die allermeisten menschlichen Leser:innen der Fall sein.
So ein KI-Roman kostet übrigens durchaus noch einiges (ein paar hundert Euro, wenn man es gut machen möchte). Aber diese Preise werden dieses Jahr noch radikal fallen. Die ganz aktuellen Schlagzeilen zu Ernie 4.5, welches nur 1% von GPT-4.5 kosten soll, zeigen zumindest klar, wohin die Reise geht.
Das heißt nun alles freilich nicht, dass KI die beste Literatur schreibt.
Es heißt auch nicht, dass wir KI-Literatur statt menschlicher Werke lesen sollten – das ist eine völlig andere Fragestellung. Die Tatsache, dass im Diskurs dieser ethische Horizont ständig mit der bloßen Machbarkeit vermengt wird, ist frappierend – letztlich aber auch Schuld derer, welche die Existenzberechtigung menschlicher Kunst eben genau mit ihrer angeblich überlegenen „Qualität“ begründen. (Immer nur „Plagiat!“ zu schreien, hilft auch wenig. Denn einerseits steckt auch darin ein implizites Qualitätsurteil, das sich leicht entkräften lässt, und andererseits ist es eben kein konstruktives Argument für menschliche Kunst und Kultur, auch wenn hier zumindest die gewählte Ebene des Diskurses die richtige ist.)
Und ich denke übrigens auch nicht, dass wir bald schon nur noch KI-Literatur lesen werden. Die Gefahr, dass wir bald in den Sog unglaublich gut erzählter KI-Textwelten geraten und nicht mehr daraus auftauchen werden, wie Eliezer Yudkowsky spekuliert, erscheint mir eher gering.
Aber die genannten Punkte geben doch zumindest Anlass dazu, dass wir uns schleunigst an den Gedanken gewöhnen sollten, dass „gute Geschichten schreiben“ kein menschliches Alleinstellungsmerkmal mehr ist. Und es ist eine sehr legitime und wichtige Forschungsfrage, zu erkunden, was das mit uns gesellschaftlich machen wird.
Allerdings muss ich auch sagen – Buchmesse hin oder her und aller Literaturliebe zum Trotz – die Konsequenzen dieser menschlichen Kränkung sind, selbst wenn es richtig schlecht läuft, gerade wirklich noch ein vergleichbar kleines Problem, wenn man sich die Herausforderungen vor Augen führt, welche uns KI (bzw. die KI-Entwicklung) gerade dabei ist zu bescheren. Ohne auf diese zu verweisen, werde ich jetzt keinen KI-Post mehr beenden, bis wir endlich anfangen, dazu als Gesellschaft einen Diskurs zu führen.
Comments