Auflösung

Was wird hier aufgelöst, was löst sich hier auf?

Die Leipziger Buchmesse ist vorüber. Der dort anscheinend herumgeisternden KI-Existenzangst steht immerhin doch der mutmachende Besucherrekord gegenüber. Von beidem habe ich nur aus zweiter Hand mitbekommen, erhole mich grade nicht vom Messetrubel, sondern von einem ordentlichen Infekt, der durch unseren Haushalt wirbelte.

Aber ich hatte ja ein kleines Rätsel pünktlich zur Messe aufgegeben, und das muss jetzt zeitnah aufgelöst werden - ein Text, bei dem es zu beurteilen galt, ob er menschlicher oder maschineller Herkunft sei, oder vielleicht das Resultat einer Kooperation von Schriftsteller:in und KI.

Ich danke all den Mutigen, die sich mit Tipps aus dem Fenster gelehnt haben. Man könnte es jetzt kurz machen und einfach festhalten, welche Partei dabei abgestürzt ist - und der anderen die Bestätigung ihres Weltbilds gönnen. Ich finde aber, das Thema verdient eine etwas ausführlichere Erklärung.

Denn was angesichts der Messe so zum Thema KI und Literatur wieder in die Medien gelangte, gibt eher Anlass zur Vermutung, dass wir nach wie vor einen Diskurs haben, dem es guttun würde, wenn wir etwas genauer hinschauten. So meinte etwa Peter Kraus vom Cleff in der Eröffnungs-Pressekonferenz: "Die Förderung von Kultur ist keine Subvention, sondern eine Investition in die Zukunft." Kaum etwas kann mir nun mehr aus dem Herzen sprechen als ein Aufruf an die Politik zu mehr Kulturförderung - gerade angesichts dessen, dass sie sich bereits darauf festgelegt hat, durch enorme Investitionen die Entwicklung einer generellen KI zu unterstützen, welche die Kulturlandschaft vor enorme Herausforderungen stellen würde (siehe dazu hier; auch beim Thema Literaturübersetzung habe ich schon ganz vehement dafür plädiert, nämlich hier, auf menschliche Übersetzer:innen zu setzen - und zwar mit Geld und zwar gerade weil die KI so gut ist). Der Appell an die Politik des Hauptgeschäftsführers des Börsenvereins des Deutschen Buchhandels wird dann aber wie folgt expliziert: "Er forderte unter anderem rechtliche Leitplanken für KI in Deutschland und Europa und einen drastischen Bürokratieabbau." Das lässt mich auf einigen Ebenen recht ratlos zurück, scheint mir das Thema gleich mehrfach zu verfehlen, gibt auf jeden Fall wenig Grund zur Annahme, dass die Situation richtig erfasst ist und eine wirklich hilfreiche Vision für die Zukunft vorliegt.

Diese Aussage zu analysieren und einzuordnen würde jetzt selbst einen langen Beitrag erfordern. Das wäre aber reichlich mühsam für mich und ermüdend für Sie und Euch. Stattdessen möchte ich hier dadurch etwas Kontext kreieren, dass ich einen kleinen Einblick in die Praxis des KI-Erzählens geben möchte. Ich hoffe, dass das allen Leser:innen doch zumindest ein bisschen weiterhilft, sich ein eigenes Bild der momentanen Situation zu verschaffen. Und um einen Appell zu formulieren, der Sinn macht, muss dieses Bild erstmal eine gewisse Schärfe erreichen. Vielleicht brauchen wir gerade ein bisschen weniger theoretische Diskussion? Ich will versuchen, auf die obigen Schlagworte nicht einfach meinerseits wieder mit Buzzwords zu antworten. Stattdessen soll es mal ein wenig konkretere Textarbeit sein. Das ist natürlich mühsamer, als einfach so Thesen zu "der KI" rauszuhauen. Man muss tatsächliche Texte auch wirklich lesen - und sich über das Gelesene austauschen. Das kostet zumindest mal Zeit - es macht aber auch, so hoffe ich, ein wenig Spaß ...

Fangen wir mit dem Naheliegenden an: die Satire zur Leipziger Buchmesse war komplett KI-generiert. So weit, so gut. Was machen wir jetzt mit dieser Auflösung? Zeigen wir uns darüber verblüfft, was große Sprachmodelle heute zu leisten in der Lage sind und was vor kurzem noch unmöglich schien? Wischen wir es einfach mit der Bemerkung beiseite, dass uns sofort (zumindest jetzt) klar war (bzw. schlagartig wurde), dass der Text natürlich minderwertig ist und von einer KI stammt? Werfen wir sämtliche bisher gehegten Überzeugungen über Bord, wie es die Protagonisten der Satire am Ende tun?

Es lohnt, finde ich, kurz innezuhalten und die ganze Vielfalt an Implikationen in den Blick zu nehmen, die diese Offenbarung haben könnte. Denn je nachdem, mit welchen Voraussetzungen wir an die Lektüre der Satire getreten sind, kann es sein, dass wir ganz unterschiedlich auf diese Erkenntnis reagieren. Um wirklich zu verstehen, wo wir im Hinblick auf erzählende KI stehen, müssen wir die ganze Bandbreite an Überlegungen ernst nehmen, die verschiedene Personengruppen angesichts einer solchen KI-Satire anstellen könnten.

Ich will beispielsweise nicht behaupten, dass die KI-Satire jetzt irgendetwas grundlegend bewiesen habe. Andererseits: Wer bisher die Reichweite einer erzählenden KI nur dadurch getestet hat, dass er oder sie einen Chatbot wie ChatGPT mit dem Prompt "Schreib einen Roman im Stil von Sebastian Fitzek!" konfrontierte, wird vom maschinellen Ursprung des von mir geteilten Text vermutlich durchaus überrascht sein. Denn auf die zitierte Weise bekommt man sicherlich keinen Text, der eine solche Kohärenz aufweist. Dazu braucht man ein Computer-Programm, welches als Teil eines durchdachten Algorithmus nach Bedarf ein großes Sprachmodell aufruft, um in mehreren Schritten einen Plot zu kreieren und Figuren auszugestalten. (Mehr dazu habe ich bereits hier geschrieben.)

Im vorliegenden Fall war ein Computerprogramm am Werk, welches sich an Randy Ingermansons "Schneeflockenmethode" orientiert. Für jeden der Schritte, welche einen Menschen jeweils durchaus einige Tage oder Wochen in Anspruch nehmen können, wurde ein Sprachmodell beauftragt, um aufgrund der Vorarbeiten jeweils den nächstkomplexeren Output zu generieren.

Ich nutze ein solches (von mir erstelltes) Programm schon länger, um damit zu testen, wie gut gerade die Modelle von OpenAI erzählen können und was jeweils ihre Besonderheiten sind. Dabei zeigt sich etwa, dass die Reasoning-Modelle (siehe hier; o1 und o3-mini stehen über die API zur Verfügung) hervorragend sind, wenn es darum geht, einen Plot mit schlüssiger Kausalkette zu erstellen. Im Grunde wird dabei für jede einzelne Wendung eine komplette unsichtbare Monographie im Hintergrund geschrieben (!), welche evaluiert, welches nächste Ereignis im Rahmen der Gesamthandlung plausibel und für das Genre passend wäre. Sofern man hierfür auch noch ausführliche Figuren-Biographien erstellen lässt (mit vollständigen Vorgeschichten usw.), kommen dabei beeindruckende Resultate heraus. Woran es bisher bei OpenAI noch haperte, war die überzeugende narrative Umsetzung der detaillierten Szenenpläne, die man auf diese Weise erstellen konnte.

Ende Februar wurde dann jedoch die GPT-Version 4.5 veröffentlicht. In vielerlei Hinsicht war diese, so würde ich behaupten, enttäuschend. Hätten wir nicht zwischenzeitlich die Reasoning-Modelle bekommen, so wäre die Schlagzeile gewesen, wie gering die Verbesserung zwischen GPT-4o und GPT-4.5 doch ausfiel, obwohl ein Dreivierteljahr fieberhaft daran gearbeitet worden war und obwohl das neue Modell 30-mal (was die Eingabe betrifft) bzw. 15-mal (was die Ausgabe betrifft) so teuer ist wie das alte. In einer Sache ist GPT-4.5 allerdings der 4o-Version doch recht deutlich überlegen: beim kreativen Schreiben.

Hier ist beispielsweise die Eröffnungsszene einer Satire, welche das Thema einer fiktiven "Zusammenarbeit des Theologen Christoph Heilig und des Literaturkritikers Wolfgang Tischer" haben sollte. (Wolfgang Tischer ist einer der wenigen im deutschsprachigen Literaturbtrieb, der die Thematik rund um KI schon länger aus Sicht eines Literaturkritikers verfolgt und mit dem ich daher schon öfter im Austausch war, um seine Perspektive zu erfahren. Für den Dialog mit ihm habe ich einen solchen Text generieren lassen.) Mag sein, dass es mir vor allem deswegen so geht, weil in dem Text "ich" vorkomme, aber ich finde die Szene tatsächlich ziemlich lustig. Sie ist auf jeden Fall sehr viel besser als das, was GPT-4o zu produzieren in der Lage war. Nicht nur ist die Unsicherheit des Protagonisten auf humorvolle und nachempfindbare Weise geschildert, für eine ganz neue literarische Qualität sorgt in meinen Augen auch, wie Details des Settings (Luther an der Wand, der Laubbläser draußen) durchgehend und geschickt eingeflochten werden. Auch mit GPT-4o konnte man schon ganze Bücher schreiben und auch die dürften viele Durchschnittsleser:innen getäuscht haben. Aber der Spaßfaktor beim Lesen war doch deutlich geringer.

Das Problem an GPT-4.5 war und ist jedoch, dass es sehr eigensinnig ist. Es entspricht keinem Schreib-Neuling mehr, dem die handwerklichen Grundlagen fehlen. Es ist mehr, als hätte man es mit einem durchaus erfahrenen Autor zu tun, dem man nervige Marotten austreiben muss ... oder der unter Koffein- und Dopamin-Mangel leidend morgens lustlos Auftragsarbeit erledigt. Beim System-Prompt für das Ausschreiben der einzelnen Sub-Szenen hat man etwa eine Grat-Wanderung vor sich, wenn es darum geht, wie man das Modell anleitet, jeweils einen guten Abschluss zu schreiben. Man muss schon mit Großbuchstaben arbeiten und geradezu in die Tastatur hineinschreien, damit unerträgliche auktoriale Erzähler-Kommentare, Vorausdeutungen und Moralisierungen unterlassen werden. Und es liegt dann schlussendlich an einem von vielen Ausrufezeichen, dass doch plötzlich sogar etwas zu "abrupt" geendet wird - nämlich mitten im Satz.

Unterm Strich heißt das aber: Ja, kombiniert man die Reasoning-Modelle von OpenAI für die Konstruktion von kohärenten Plots und komplexen Erzählwelten mit der GPT-4.5 Version derselben Firma für die narrative Ausgestaltung und integriert man beides in ein feinjustiertes Computerprogramm, so lässt sich ein - eben ziemlich teurer - ganzer Roman auf Knopfdruck erzeugen, der bereits recht viele Leser:innen zufriedenstellen dürfte (siehe bereits hier).

Die Frage, die ich mir nun aber in den letzten Wochen stellte und die erklärt, wie es zu dem "Rätsel" kam, war: Was passiert, wenn man nun stattdessen das Schreiben dem neusten Modell von Anthropic überlässt, also Claude 3.7, das quasi zeitgleich mit GPT-4.5 veröffentlicht wurde?

Wolfgang Tischer befand im Praxistest etwa, dass dieses Modell - ganz einfach als Chatbot, wie er im Internet zugänglich ist, getestet - deutlich besser erzählte, als das noch nicht veröffentlichte, von Sam Altman gehypte Kreativ-Modell, das noch besser sein soll als GPT 4.5 ... Schön finde ich, dass Wolfgang Tischer auch ehrlich einräumte, die KI-Urheberschaft hinter dem Text von Claude 3.7 hätte er vermutlich nicht mehr erkannt, wäre er dem Text in freier Wildbahn begegnet.

Ist Claude 3.7 also tatsächlich besser als GPT-4.5, auch unter Bedingungen, in denen man wissenschaftlich belastbare Aussagen anstellen kann? Um die erzählerischen Qualitäten großer Sprachmodelle im Detail einschätzen zu können, muss man viele hundert Seiten generieren lassen und dann - daran führt noch immer kein Weg vorbei - sie auch selber lesen. Das habe ich nun auch für Claude 3.7 in den letzten beiden Wochen getan und traue mir daher jetzt zu, zu sagen: Hier haben wir es tatsächlich nochmal mit einer ganz neuen Qualität des maschinellen Erzählens zu tun.

Claude 3.7 ist nämlich in der Tat so gut, dass es die Arbeit menschlicher Autor:innen überzeugend simulieren kann. Das heißt nun einerseits, dass einzelne Szenen nun oft auch von Expert:innen kaum noch als KI-generiert erkannt werden können, das heißt ironischerweise aber andererseits auch, dass viele der sorgfältigen algorithmischen Zähmungen, die man bei GPT-4.5 noch brauchte, obsolet - ja gar hinderlich - werden. Claude 3.7 verhält sich wie ein sehr kreativer menschlicher Autor, der es nicht mag, wenn man ihm Vorgaben macht.

Und damit kommen wir nun endlich auf das aufgegebene Rätsel zurück. Dieses wurde nämlich von meinem Computerprogramm generiert, welches auf GPT-4.5 und die Produktion ganzer Romane abgestimmt war, in welches nun aber Claude 3.7 für sämtliche Schreibaufgaben integriert wurde.

Das Resultat finde ich persönlich durchwachsen - und genau in dieser Ambivalenz faszinierend. Die Geschichte ist auf der einen Seite durchaus ordentlich erzählt, stellenweise sogar etwas lustig. Die Figuren sind, auch in ihrer Überzeichnung, plastisch und verhalten sich plausibel, das Setting wird konsequent durchgezogen, die Chronologie ist nachvollziehbar, die Kausalkette ist relativ gut geschlossen. Das bekommt nun auch GPT recht gut hin. Die Stärke des Modells zeigen sich vielmehr an einigen Details, die man leicht übersehen kann.

Mir fällt da etwa, um nur ein Beispiel zu nennen, auf, wie das Modell zwischen zwei separat produzierten Sub-Szenen (diese Unterteilung sieht man am finalen Text nicht mehr), Kohärenz über diese Sub-Szenen-Grenzen hinweg herstellte:

"Zwei Stunden später entdeckt sie den blassen jungen Mann mit Hornbrille in Halle 3, der gerade von Martin Buchwald weggeht. Sie steuert direkt auf ihn zu, ihr Tablet wie einen Schild vor sich haltend."

Dieses Treffen zwischen "J.S." und Martin Buchwald wurde kurz zuvor erzählt. Es ist gerade die Beiläufigkeit, mit welcher hier eine Querverbindung hergestellt wird, die mich überzeugt: Auf der einen Seite wird damit den Leser:innen Orientierung geboten, auf der anderen Seite wird die Erzählperspektive, Sabine Reichweite als Fokalisator, gewahrt - kein auktorialer KI-Erzähler tritt unnötig ins Rampenlicht. Geschickt wird angedeutet, was im Szenenplan an Ort und Chronologie vorgegeben ist.

Zugleich hat die Erzählung allerdings auch Schwächen, die nach wie vor ihren maschinellen Ursprung zu erkennen geben (oder zumindest erahnen lassen), wenn man sich mit menschlichen und maschinellen Erzähltexten gut auskennt. Gar nicht so dramatisch finde ich dabei die "smoking guns," welche viele offensichtliche Bücherwürmer unter meiner Leserschaft richtig haben tippen lassen: die Vielzahl an Details, die nicht mit der tatsächlichen Lokalität und dem wirklichen Ablauf der Leipziger Buchmesse übereinstimmen. Aber Hand aufs Herz, liebe Insider: Durchschnittsleser:innen merken sowas nicht, für sie ist das Messegelände schlicht überzeugend halluziniert. Das Ganze ist in meinen Augen daher nicht "schlecht recherchiert," sondern erstaunlich gut konstruiert! (Es steht im Hintergrund nichts als extrahierte statistische Muster an Wortfolgen in Texten aus dem Internet - ich muss darüber immer noch staunen.)

Geht es um die Frage, ob Otto-Normalverbraucher solche Texte noch als KI-generiert erkennen kann und darum, ob auch Literaturliebhaber:innen sich vielleicht für KI-Literatur erwärmen könnten (sofern sie den Ursprung nicht mitgeteilt bekommen), sollte man in meinen Augen eher auf andere Aspekte schauen. Recht störend finde ich persönlich etwa, dass die Thematik der KI-Urheberschaft schon so früh durch das Auftreten von Dr. Ingrid Paragraf vorausgedeutet wird. Die Auflösung am Schluss ist daher sehr erwartbar (wobei dann doch immerhin ganz nett ausgestaltet). Auch die Symmetrie, mit welcher die Charakterentwicklung aller Hauptfiguren in jeder Episode thematisiert wird, ist recht ermüdend. Weniger wäre hier sicher manchmal mehr gewesen.

Und weniger ist anscheinend bei Claude 3.7 generell oft mehr, auch im Prompting selbst schon. Das Modell ist nämlich so gut, dass es die ganzen Vorgaben, die GPT-4.5 braucht, um nicht zu entgleisen, oft unnötig einengen. Das fällt schon auf, wenn man in die Outputs der Zwischenresultate schaut. Wo GPT-4.5 brav und in aller Kürze für jede Szene kommentiert, ob es sich um einen neuen Schauplatz handelt (damit das Sprachmodell im finalen Aufruf, in der narrativen Umsetzung, nur da das Setting thematisiert, wo dies auch wirklich neu ist), fängt Claude an, kreativ über die Rahmenbedingungen zu fabulieren. Die Prompts, die GPT zum schlichten Plotten bringen, führen bei Claude regelmäßig bereits zu erzählerischen Exzessen, der Szenenplan selbst ist bereits voller Dialoge, die in diesem Stadium eigentlich noch gar nicht gefragt sind.

Ich habe daher für diesen Beitrag noch ein weiteres Experiment durchgeführt und mein Roman-KI-Python-Skript stark vereinfacht. In dieser Version wird nicht mehr aus einer Ausgangsidee schrittweise ein immer ausführlicheres Exposée mit immer detaillierteren Charakter-Biographien erstellt, um dann auf dieser Grundlage, einen Szenenplan zu kreieren, der dann mit Metadaten zum Setting usw. angereichert wird, um schließlich dem Sprachmodell den Auftrag zu geben, jede Szene einzeln zu narrativisieren. Vielmehr springt das Skript direkt von einer Grundidee zu einem vollständigen, in einer einzigen Antwort generierten Szenenplan und produziert den gesamten Text dann auf dieser Grundlage! Wir wechseln also von der Imitation des sorgfältig plottenden menschlichen Autors hin zum manischen Bauchschreiber auf Drogen ... Das Resultat kann man hier lesen (die Vorarbeiten in Form der Grundidee und des Szenenplans hier). Ich kann nur empfehlen, sich die Zeit zu nehmen und sich auch diese Kurzgeschichte möglichst unbefangen zu Gemüte zu führen - und erst dann hier weiterzulesen. Ich finde, es lohnt sich.

Die Vorgaben, welche das Programm zu Beginn vom User abfragt, waren für beide Produktionsläufe - den ausführlicheren und diesen kürzeren - dieselben: also etwa, dass es eine Satire mit ca. 4000 Wörtern zum Thema der die Bedeutung von KI falsch einschätzenden Literaturbranche mit drei vorgegebenen Perspektiven (KI als qualitativ minderwertiger Erzähler, KI als Urheberrechtsverletzter, KI als bloßes Tool) sein soll und dass die Leipziger Buchmesse 2025, vom 27. bis 30. März, mindestens teilweise als Kontext herangezogen werden soll. Das Ganze kostet nur noch gut 1/10 des detaillierteren Programms, ca. 50 Cent.

In dieser Version des Programms ist dem Modell beinahe jede Entscheidung selbst überlassen. Dazu gehört auch die Anzahl und Länge der Szenen. Dabei fällt nun sofort auf: Diese erscheinen plötzlich signifikant natürlicher konstruiert. Claude 3.7 tut die Freiheit anscheinend gut. Man merkt durch den Kontrast nun förmlich, wie Claude 3.7 in der ursprünglichen Version, dem "Rätsel", damit zu kämpfen hatte, einen auf Romanlänge ausgelegten Plot mit einer riesigen im Hintergrund konstruierten Welt auf Kurzgeschichtenformat einzudampfen. Die Proportionen in der neuen Variante sind demgegenüber viel natürlicher.

Freilich, auch diese Version hat ihre, ganz eigenen, Schwächen. Die Zeile "Sieht sie irgendwo aus?" ist schlicht ein Fehler, das Resultat dessen, dass ein Sprachmodell immer auch würfelt und an dieser Stelle Tokens vereint wurden, die schlicht keinen sinnvollen Text ergeben. (In einer automatisierten Revisionsphase wäre so etwas freilich ausgebügelt worden!) Natürlich wirkt das Setting jetzt auch weniger plastisch, ist ja nicht extra ausgearbeitet worden. Und weil es nie einen Prozess gab, in welchem ein Plot schrittweise erweitert wurde, taucht ein deus ex machina öfter mal auf (der "wichtige Anruf" in Szene 2, Felix' Rechercheergebnis zu Helene Krafts Assistent in Szene 4).

Und da Claude beim Erzählen quasi auf Sicht fährt, unterstützt lediglich von einem sehr groben Plotgerüst, welches selbst wiederum nur mit Blick in den Rückspiegel konstruiert wurde, kommt es notwendigerweise immer wieder vor, dass Figuren auftreten und Entwicklungen geschehen, denen man eine gewisse Zufälligkeit anmerkt, bei denen erkennbar ist, dass das Sprachmodell in seiner Kreativität einen gewissen Weg eingeschlagen hat, von dem aus zum Hauptplot zurückzukehren es schwierig werden wird.

Aber: Das Sprachmodell reagiert regelmäßig mit erstaunlicher Kreativität und Präzision auf diese Stolpersteine, die es sich aufgrund des schwierigen Arbeitsprozesses gezwungenermaßen immer wieder selbst in den Weg legt. So taucht in Szene 3 der Autor Seidel sehr unverhofft mit seiner Anti-KI-Initiative auf. So etwas wäre beim ausführlichen Plotten natürlich verhindert worden. Sehr elegant wird im Rahmen seines Abgangs dann aber im Nachhinein eine plausible Erklärung dafür geliefert, was sich gerade ereignet hat:

"Nach weiteren zehn Minuten Tirade verabschiedete sich Seidel endlich, um 'weitere Mitstreiter für die Authentische Feder zu rekrutieren'."

Besser - noch zielführender und zugleich noch subtiler - kann man es eigentlich kaum machen, wenn man die Szene einmal so angefangen hat, wie Claude 3.7 es tat und man keine Möglichkeit zur Revision hat.

Ja, teilweise habe ich den Eindruck, das Resultat wäre in mancher Hinsicht sogar noch besser geworden, wenn ich Claude noch mehr freie Hand gelassen hätte. Dass etwa in Szene 3 Felix darüber nachdenkt, dass der Verlag "angeblich den literarischen Messias entdeckt hat" (meine Hervorhebung) kommt daher, dass Claude beim Schreiben der Szene die Auflösung der Geschichte natürlich schon kennt. Schöner wäre es, wenn Felix zu diesem Zeitpunkt keinerlei Zweifel an der Geschichte hat. Und die hätte Claude ihm wohl auch kaum angedichtet, hätte es nicht bereits den ganzen Plot als Vorlage bekommen, um zu sehen, wohin die Reise grob zu gehen hatte.

Als jemand, der schon Tausende Seiten an KI-generierten Texten verschiedenster Genres gelesen hat, finde ich das eine sehr bemerkenswerte Tendenz, auch wenn es auf den ersten Blick nicht so spektakulär klingen mag. Die Herausforderung für KI-Literatur besteht anscheinend nicht mehr so sehr darin, durch einen Algorithmus Rahmenbedingungen für gelingendes Erzählen zu schaffen, Leitplanken, die dafür sorgen, dass das Sprachmodell überhaupt auf einem kohärenten Handlungsstrang bleibt. Das Erzählen ist bereits gut genug. Wir sind jetzt eher im Bereich des "nudging": Wie kann man ein Sprachmodell wie Claude 3.7 auf der einen Seite möglichst frei agieren lassen und dabei trotzdem durch sanfte Hinweise sicherstellen, dass keine neuen Schwächen entstehen, das Modell sich bei lang werdenden Texten nicht wegen Zufallsentscheidungen in unplausiblen Handlungen und unregelmäßigen Welten verstrickt?

Mein momentaner Eindruck - dazu mehr, sobald die Familie wieder gesund ist - ist, dass ein einfacher Trick hier vermutlich schon genügen wird: Man muss dem Modell eben die Chance geben, sich revidieren zu dürfen, sodass es eine für den Fortgang ungünstige Festlegung noch korrigieren kann. Vielleicht braucht es dann, so meine Vermutung, gar kein ausführliches Worldbuilding mit Reasoning-Modellen im Hintergrund mehr, wenn man ein Modell wie Claude 3.7 einfach jedes Mal neu ansetzen lässt, wenn es sich in eine Sackgasse begeben hat und das selbst merkt. Meine Arbeitsthese ist, dass damit dann Erzählungen, auch längere, entstehen, die mit denen von Top-Autor:innen mithalten können.

Ich möchte an dieser Stelle nochmals auf ein Experiment verweisen, das noch mit der heute veralteten GPT-4-Version durchgeführt wurde, heute sicher bereits eine ganz andere Schlagseite hätte, aber selbst mit dem schwachen Modell von damals zu Resultaten führte, welche die Literaturwelt eigentlich hätten schockieren müssen. Angeblich, so die meisten Medien, zeigte die Studie, dass gestandene Autoren wie Patricio Pon der KI noch deutlich überlegen seien. Wie ich nicht müde werde, zu betonen, ist das eigentlich Signifikante am Ergebnis aber, dass beinahe 46% der für das Experiment verfassten Texte des menschlichen Autors von Expert:innen als nicht gut genug für eine Anthologie bewertet wurden, gleichzeitig 18% der englischen GPT-Versuche aber schon! Mit anderen Worten: Die KI hat den Weltklasse-Autor geschlagen - nur eben nicht in jedem Versuch. Während Pon sich nun allerdings Zeit für jeden Text nehmen muss und seine kreativen Ressourcen schon rein neurobiologisch begrenzt sind, kann man ein Sprachmodell innerhalb kürzester Zeit einfach mehrere Versionen kreieren und dann die beste auswählen lassen. Damit und angesichts dessen, was Claude 3.7 in seinen glücklichsten Zügen zu leisten in der Lage ist, dürfte es für menschliche Autor:innen dann recht schwer werden, im direkten Vergleich für vorgegebene Szenen erzählerisch bessere narrative Umsetzungen zu kreieren.

Die letzte Szene (Szene 5) in von Claude 3.7 mal so dahingeschluderten Satire ist etwa meiner Meinung nach enttäuschend. Ich hatte am Ende von Szene 4 sehr gehofft, Felix würde als Julian Mayer den Preis entgegen nehmen. Das wäre eine schöne Auflösung gewesen! So wird es doch recht erwartbar und langweilig (wobei das Sprachmodell zum Ende hin - mal wieder - dann doch noch die Kurve hinbekommt, indem es die Enthüllung zu einer kollektiven Beichtstunde ausbaut). Ich bin mir sicher: im zweiten oder dritten Versuch wäre da Claude auch noch auf eine bessere Grundidee gestoßen, hätte man ihm die Chance geboten.

Was lehrt uns das Rätsel also, das ich zur Leipziger Buchmesse zur Diskussion gestellt habe? Ich denke, vor allem eins: Je länger man über KI-Erzähler nachdenkt und je mehr man den Optionen ergebnisoffen und nüchtern nachgeht, desto mehr stellt man verblüfft fest, wie viele Elemente tatsächlich schon vorliegen, die es braucht, damit ohne weitere menschliche Eingriffe von einem simplen Prompt aus komplexe Erzählwerke produziert werden können.

Keine Frage: Die von mir veröffentlichte KI-Satire ist kein Paukenschlag, der in Isolation wachrüttelt. Sie ist übrigens auch bei weitem nicht der beste KI-Text, den ich in den letzten Monaten ausgespuckt bekommen habe. Aber so viel Transparenz muss in meinen Augen eben auch sein und deswegen habe ich hier nicht einfach zigmal weitergenerieren lassen. Es ist eben wirklich nicht alles literarisches Gold, was ein solches Programm ausspuckt. Aber, und das finde ich schon bemerkenswert genug, es glänzt eben doch schon so einiges - und wenn man darauf den Fokus legt, dann kann man die kreative Strahlkraft erkennen, zu welcher große Sprachmodelle mittlerweile in der Lage sind. Selbst in der so stark abgespeckten Version.

Beispiel: Kurz bevor der Assistent Daniel Weber im Dialog zwischen Felix und Clara in Szene 4 aus dem Hut gezaubert wird, zeigt Claude 3.7 sehr viel besser, geradezu mustergültig, wie man die Handlung durch Dialog voranbringt: Clara erzählt Felix davon, dass auch der große Seidel tüchtig von KI profitiert. Auf die Frage (die sich auch jeder gute Leser stellen muss), weshalb Clara Felix das verrät, wird wunderbar die vorherige Szene aufgegriffen:

"Weil ich dein Gesicht gesehen habe, als dein Chef über 'Werkzeuge' geredet hat." Sie lehnte sich vor. "Der mysteriöse Julian Mayer existiert nicht, oder? Der Roman ist komplett KI-generiert."

Felix' Schweigen war Antwort genug.

Und während in Szene 2 das Sprachmodell einmal metaphorischen Schiffsbruch erleidet, finden wir im selben Kontext ein echtes Nugget:

Eher grausig, für meinen Geschmack: "'Ein brillantes Werk, das die Tiefen der menschlichen Seele auslotet. Die Sprachbilder, die narrative Struktur... außergewöhnlich.' Thomas klammerte sich an den Tisch, um nicht umzufallen. 'Das... das freut mich zu hören.' 'Es freut Sie?' Helene Kraft schnaubte. ' Es sollte Sie in Ekstase versetzen. Ich werde es in meiner Kolumne besprechen. Positiv.' Sie sprach das Wort aus, als wäre es ein exotisches Gewürz, das sie zum ersten Mal probierte."
Ziemlich treffsicher, finde ich: "Dann, kurz nach dem Mittagessen, tauchte Helene Kraft wieder auf. Ihr Gesicht trug denselben Ausdruck wie immer – als hätte sie gerade in eine Zitrone gebissen und fände das Erlebnis nicht unangenehm genug, um aufzuhören."

Ich hoffe, man merkt diesem Beitrag an: Ich will das KI-Potenzial hier nicht in den Himmel hypen. Realismus ist angebracht. Und dass technisches Vermögen und die Frage nach dem Sollen zwei ganz, wirklich vollkommen, verschiedene Schuhe sind, brauche ich hoffentlich nicht auch schon wieder zu betonen. Aber es würde mich freuen, wenn die KI-Kritiker:innen unter meiner Leserschaft, die sich durch das Rätsel nur in ihrer Weltsicht bestätigt gefühlt haben, weil ihre KI-Antennen sofort ausgeschlagen haben, durch den Kontext, den dieser Beitrag liefert, vielleicht doch etwas ins Grübeln kommen.

Falls das nicht klappt, möchte ich hier zum Abschluss doch noch ein wenig aus den Rückmeldungen berichten, die mich zum Rätsel erreicht haben. Denn - ein weiterer Punkt, den zu wiederholen ich nicht müde werde: Für die meisten Rezipient:innen bleiben diese KI-Signale schlicht unter dem Radar. Die mit großem Abstand häufigste Rückmeldung, die ich auf meinen Beitrag erhielt, war ironischerweise: "Das Bild (sic!) ist eindeutig KI-generiert!" So viel zur typischen menschlichen Lesekompetenz! Dass das die prototypische Rückmeldung war, muss man sich wirklich auf der Zunge zergehen lassen. Dabei darf man sich dann freilich über die eigene verkörperte Existenz freuen, die dieses Sprachbild impliziert und die der KI abgeht - man möge sich das aber bitte auch als Anlass nehmen, besagtes Organ nicht mehr fusselig zu reden, wenn es darum geht, wie "schlecht" KI kommuniziert und wie "überlegen" wir Menschen ihr doch beim Erzählen und Lesen sind.

Wirklich erfasst hat das in meinen Augen der Autor einer Rückmeldung, der selbst schon lange im Literaturbetrieb tätig ist und ganz treffsicher die Satire als vollständig KI-generiert eingeordnet hat - aber auch genügend Weitblick hat, um zu verstehen, dass nicht jeder mit demselben professionellen Hintergrund an solche Texte herantritt und die Täuschung gar nicht so weit weg ist, dass hinter all den KI-Schatten durchaus kreatives Licht scheint, das einen schnell mal blenden könnte:

Ich glaub sie ist so 100 % KI geschrieben und zwar mache ich das an Fehlern und falschen Beschreibungen hauptsächlich fest. Die Geschichte an sich finde ich schon gut. Als Satire funktioniert sie gut, weil die Charaktere doch entsprechende Rollen in dieser Satire begleiten und die sind auch gut gezeichnet, also es wird gut beschrieben und sie ist witzig. Die Pointe ist zwar vorhersehbar, aber dennoch gut ausgestaltet. Ich glaube man würde es ansonsten nicht wirklich merken, dass es von einer KI ist. Ich hab es gemerkt an kleinen inhaltlichen Fehlern, also zweistöckige Messestände gibt’s hier nicht, es gibt keinen Messe-Katalog mehr. Es gibt auch von Börsenverein keinen Vorstand, sondern eine Vorsteherin und so weiter …

Und tatsächlich war es so, dass sich durchaus auch sehr gebildete Leser:innen haben täuschen lassen. Eine Schriftstellerin tippte etwa auf einen Menschen, der bewusst den Stil von KI imitierte. Und ein äußerst qualifizierter Kollege, der selbst schon wissenschaftliche Artikel zu großen Sprachmodellen publiziert hat, steht für mich exemplarisch dafür, dass man sich durchaus mit der Thematik hervorragend auskennen und sich dennoch durch das überraschende Potenzial großer Sprachmodelle aufs Glatteis führen lassen kann, wenn es um kreatives Schreiben geht:

Dieser Text wurde entweder von einem talentierten Menschen geschrieben (der du bist, aber so könntest du auch einfach Autor werden) – oder von einer KI, die stark kuratiert und redigiert wurde (das vermute ich). Wenn eine KI beteiligt war, dann in Kombination mit menschlicher Kontrolle auf hohem literarischem Niveau.

Auflösung

Aktuelle Beiträge

Comments

Newsletter