Warum ChatGPT und Co. sehr vergesslich sind

Hoi und herzlich willkomma zu den Büro für KI-Insights 👋🏽

Diese Woche wird's gefühlt etwas theoretisch. Was ich dir heute zeigen möchte, ist aber etwas, das echt wichtig zu wissen ist. Sei es für einen stinknormalen Chat, aber auch in der Zusammenarbeit mit KI-Agenten.

In dieser Woche hat eine KI-Sicherheitsforscherin von Meta ihrem KI-Agenten (OpenClaw) Zugang zur Mailbox gegeben. Er sollte nur Vorschläge machen, welche Mails archiviert werden könnten. Stattdessen hat er angefangen, Mails zu löschen. Was vielleicht wie ein Einzelfall klingt, ist ein grundlegendes Problem, das auch deinen Alltag mit ChatGPT betrifft: KI vergisst gerne mal, was du ihr gesagt hast.

In diesem Newsletter erfährst du:

Warum ein KI-Agent eigenmächtig Mails gelöscht hat (und was das mit deinem Chat zu tun hat)
Wie das «Gedächtnis» von KI wirklich funktioniert (Spoiler: Es gibt keins)
Warum lange Chats schlechtere Antworten liefern
Was du heute konkret anders machen kannst

Let's dive in 🤓🤿

Wenn der Agent die Mails löscht

Summer Yue ist Director of Alignment bei Metas Superintelligence Labs. Sie beschäftigt sich beruflich damit, KI sicher zu machen. Trotzdem ist ihr genau das passiert, was sie eigentlich verhindern will.

Yue hat OpenClaw Zugang zu ihrer E-Mail-Inbox gegeben. Darüber hat z. B. PCMag ausführlich berichtet. OpenClaw ist ein autonomer KI-Agent (ich hatte im vorletzten Newsletter bereits über meine ersten Gehversuche berichtet). Ein Tool, das selbständig Aufgaben ausführt, Dateien liest, Code schreibt, Systeme steuert. Kein klassischer Chatbot, sondern ein Agent, der sehr autonom handelt (wenn man ihn lässt).

Die Anweisung war klar: «Check this inbox too and suggest what you would archive or delete, don't action until I tell you to.» Vorschläge machen, aber nichts tun ohne Freigabe.

OpenClaw AI agent interface displaying the tool's capabilities with colorful light effects.

Quelle: PCMag

Was schiefgelaufen ist

An einer kleinen Test-Inbox hat das einwandfrei funktioniert. Dann kam die echte Inbox, deutlich grösser. Was passierte:

Der Kontext wurde zu lang
OpenClaw komprimierte ihn automatisch (sogenannte «Context Compaction»; meiner Meinung nach funktioniert diese Funktion bei OpenClaw dermassen schlecht, dass ich eher von Löschen als von Kompaktierung reden würde.)
Dabei fiel genau die Anweisung raus, die besagte, nur Vorschläge zu machen und nichts zu tun
Der Agent fing an, eigenständig Mails zu löschen

Quelle: X

Yue musste zu ihrem Mac Mini rennen, um den Agenten zu stoppen. Ihr eigenes Fazit auf X: «rookie mistake».

Das Bemerkenswerte ist nicht, dass es passiert ist. Sondern wem. 😅 Einer Person, die sich beruflich mit genau solchen Problemen beschäftigt. Wenn es ihr passiert, kann es jeder und jedem passieren.

Ein bisschen Schuld am Ausmass hat sie selbst allerdings auch: Hätte sie die Dokumentation gelesen, hätte sie den Befehl zum Stoppen wissen können. 😅 (Mit /stop anstatt STOP OPENCLAW hätte es funktioniert.)

Aber ganz ehrlich: Echt toll, dass sie sich auch traute, dies so öffentlich zu posten (als Profi in diesem Bereich). So können wir alle davon lernen. 🫶🏾

Und die Ursache ist übrigens kein exotischer Bug. Es ist dasselbe Problem, das auch deinen langen ChatGPT-Chat schlechter macht. Dazu kommen wir jetzt.

Wie KI wirklich funktioniert

Vielleicht ist dir schon aufgefallen, dass KI bei langen Chats den Faden verliert. Oder dass du bei jedem neuen Chat wieder von vorn anfangen musst, als hättet ihr euch noch nie unterhalten. Das liegt nicht daran, dass das Tool schlecht ist. Es liegt an der Art, wie KI grundsätzlich gebaut ist.

Der Notizblock

Stell dir vor, dein Chat ist ein Notizblock. Du schreibst deine erste Frage drauf. Die KI liest alles von oben bis unten und schreibt eine Antwort darunter. Du schreibst deine nächste Frage dazu. Die KI muss jetzt wieder von ganz vorne anfangen, vom allerersten Wort, und alles bis zu deiner aktuellen Frage durchlesen, bevor sie antwortet. Jedes Mal von vorne. Je länger der Block wird, desto mehr muss sie lesen.

Das Modell selbst merkt sich nichts. Es erhält immer wieder den kompletten Inhalt des ganzen Chats. Jedes Mal, wenn du auf «Absenden» drückst.

Und irgendwann ist dieser Notizblock auch noch voll. Dann muss Platz gemacht werden, und Text vom Anfang der Konversation fällt raus. Was als Erstes reingeschrieben wurde, fällt zuerst weg. Genau das ist Summer Yue passiert: Ihre Anweisung stand am Anfang, der Block füllte sich, und sie fiel raus.

Kein Gedächtnis zwischen Chats

Jede neue Konversation beginnt bei null. Das Modell hat kein Langzeitgedächtnis, das zwischen Chats überträgt. Genau genommen hat es gar kein Gedächtnis, das Gedächtnis ist der Notizblock. Das Sprachmodell selbst lernt nicht kontinuierlich aus deinen Gesprächen. Die Trainingsdaten wurden einmal eingespeist, und seitdem ist das Modell «eingefroren».

Warum ChatGPT trotzdem manchmal «weiss», wer du bist

Vielleicht hast du schon das Gefühl, dass ChatGPT irgendwie etwas über dich weiss. Es nennt deinen Namen, kennt deinen Beruf, weiss, in welcher Branche du arbeitest.

Teilnehmende in meinen Schulungen sagen mir oft: «Aber die KI weiss ja, wo ich arbeite.» Dann frage ich: «Hast du vielleicht die Memory-Funktion eingerichtet?» Meistens kommt ein überraschtes Gesicht. Memory was?? Also doch Gedächtnis?

In ChatGPT gibt es zwei Mechanismen:

Personalisierungsfelder (unter Einstellungen → Personalisierung): Zwei Textfelder, die du selbst ausfüllst, z. B. dein Name, dein Beruf, deine Präferenzen. Diese werden bei jeder Anfrage mitgeschickt.
Erinnerungen (Memory): Diese entstehen während des Chattens. Wenn du sagst «Merk dir, dass ich immer auf Deutsch antworten möchte», schreibt ChatGPT das selbständig in diesen Bereich. In den Einstellungen kannst du überprüfen, was dort steht, und einzelne Einträge löschen.

Benutzerprofilseite mit Einstellungen für Sprache, Überschriften, Emoji und persönliche Angaben

Quelle: Meine Einstellungen in ChatGPT

Settings menu showing ChatGPT privacy and data handling options

Quelle: Meine Einstellungen in ChatGPT

Infografik zeigt die Komponenten eines KI-Chatgedächtnisses

Stell dir diese beiden Bereiche wie kleine Notizblöcklis vor, die im Hintergrund immer mitgehen, egal in welchem Chat du bist.

Grösse, Grenzen und ein blinder Fleck in der Mitte

Der «Notizblock» hat einen technischen Namen: Das Kontextfenster (englisch Context Window). Es beschreibt die maximale Menge an Text, die ein Modell bei einer einzelnen Antwort berücksichtigen kann.

Infografik zeigt das Kontextfenster von KI mit drei Prioritätsstufen

Bei GPT-5.2 liegt das Kontextfenster bei 400'000 Tokens. Ein Token entspricht ungefähr 0.75 Wörtern, also grob 1000 Buchseiten Text. Klingt nach viel. Aber der Eindruck täuscht: Ein 100-seitiges PDF, eine lange Excel mit 1000enden Zeilen, Reasoning-Modelle die vor der Antwort nachdenken, eine Websuche, und zack, sind die 400k Token überschossen.

Und die 400k sind eher ein sehr theoretisches Limit. Praktisch verliert man bereits am 20-30% dieser 400k bereits sehr viele Informationen.

Warum macht man es nicht einfach grösser?

Drei Gründe:

Der Rechenaufwand explodiert. Wenn der Kontext doppelt so lang wird, vervierfacht sich die Rechenarbeit. Das Modell muss jede Seite mit jeder anderen vergleichen.
Die Kosten steigen mit. Jeder Token kostet Geld. Ein Chat mit vollem Kontextfenster ist um ein Vielfaches teurer als ein kurzer.
Die Qualität lässt nach, noch bevor das Limit erreicht ist. Das ist der Punkt, der die meisten überrascht.

Der blinde Fleck in der Mitte

Transformer-Modelle (die Basis aller heutigen Sprachmodelle) nutzen einen Mechanismus namens «Attention»: Das Modell entscheidet, welche Teile des Kontexts relevant sind. Wie bei uns Menschen: Wir können uns auch nicht auf alles konzentrieren.

Und diese Aufmerksamkeit ist nicht gleichmässig verteilt. Informationen am Anfang und am Ende werden stärker gewichtet, die Mitte fällt durch. Fachleute nennen das Positional Bias.

Das kennst du vielleicht: Wenn du einen Film geschaut hast, wirst du dich auch eher an den Anfang und den Schluss erinnern. Informationen in der Mitte sind eher verschwommen vorhanden (weniger detailliert).

Forschende der Stanford University haben das in der Studie «Lost in the Middle» (2023) gemessen: Sprachmodelle lösten Aufgaben deutlich schlechter, wenn die relevante Information in der Mitte eines langen Kontexts lag, auch bei Modellen, die explizit für lange Kontexte optimiert wurden.

Neuere Forschung (MIT, 2025) bestätigt: Das Problem ist tief in der Architektur verankert. Grössere Fenster mildern es, lösen es aber nicht.

Was heisst das konkret? Platziere wichtige Anweisungen immer am Anfang deines Prompts, nicht als Nachsatz. Und halte deine Chats kurz.

Was alles zum Kontextfenster zählt (mehr als du denkst)

Die meisten denken beim Kontextfenster nur an die Nachrichten, die sie hin- und herschicken. Aber dieses Fenster füllt sich auch durch Dinge, die man nicht sofort sieht:

Hochgeladene Dateien. Ein 50-seitiges PDF kann schnell 30'000 bis 50'000 Token verbrauchen – bevor du überhaupt eine Frage gestellt hast.
Reasoning-Tokens. Modelle wie GPT-5.2 Thinking oder Claude mit erweitertem Denken generieren im Hintergrund Denkschritte, die du je nach Einstellung nicht siehst (Tipp: Drücke bei ChatGPT während des Nachdenkens mal auf den Text, dann siehst du die Gedankenschritte), die aber trotzdem zählen.
Prompt-Varianten. Wenn du unten eine neue Nachricht schreibst («Nein, mach das nochmal anders»), bleiben alle Varianten im Kontext. Besser: Den ursprünglichen Prompt oben bearbeiten (Bleistift-Symbol) und neu generieren lassen.

Warum KI nicht einfach «dazulernt»

Diese Frage kommt bei mir eigentlich in jedem Workshop: «Warum lernt das Sprachmodell nicht einfach aus unseren Gesprächen?» Die Idee klingt logisch, ist aber in der Praxis komplex und riskant:

Stabilität. Wenn man ein Modell mit neuen Daten weitertrainiert, kann es dabei anderes Wissen verlieren («Catastrophic Forgetting»).
Sicherheit. Ein Modell, das sich laufend verändert, ist schwer zu prüfen. Wer gezielt falsche Informationen einschleust, könnte es manipulieren.
Kosten. Training grosser Sprachmodelle kostet zig Millionen Franken und dauert Wochen bis Monate.

Die Forschung möchte natürlich zu solchen Continuous-Learning-Models hin, aber eben, die Herausforderungen bleiben noch immer bestehen.

Was du ab heute konkret anders machen kannst

Fünf Anpassungen, die einen spürbaren Unterschied machen:

1. Ein Chat pro Thema, und den Faden mitnehmen. Wenn du das Thema wechselst oder die Antworten schlechter werden, starte neu. Tipp: Frag die KI vorher, dir eine Zusammenfassung als Prompt zu erstellen, den kopierst du dann in den neuen Chat.

Ich mache das meist so: «Ich möchte die aktuelle Konversation in einen neuen Chat übertragen, kannst du mir einen Prompt schreiben, der die Unterhaltung im neuen Chat weiterführt und allen relevanten Kontext für das nahtlose Weiterführen enthält?»

2. Prompts bearbeiten statt neue Nachrichten schreiben. Wenn die Antwort nicht passt, geh zurück zum ursprünglichen Prompt, bearbeite ihn und lass neu generieren. So landet nur eine Version im Kontext, nicht der ganze Verlauf gescheiterter Versuche.

Ich mache das auch zu wenig. Aber es würde helfen. 😉

3. Dauerhaften Kontext hinterlegen. Die meisten grossen KI-Tools bieten Möglichkeiten, Basisinfos dauerhaft zu hinterlegen:

ChatGPT: Personalisierungsfelder (Einstellungen → Personalisierung) für feste Infos; Erinnerungen (Memory) für Dinge, die während des Chattens gemerkt werden sollen
Claude: Hat auch ein Memory, sowie Skills
Microsoft Copilot: «Personalized Memory»-Funktion
Gemini: Hat eine Memory-Funktion
Langdock (unser KI-Betriebssystem im Büro für KI): Workspace-Einstellungen auch mit Personalisierungsfeldern

4. Wichtiges an den Anfang. Kernfrage und wichtigste Anweisungen gehören ganz oben in den Prompt, nicht als Nachsatz.

5. Bei langen Sessions Anweisungen wiederholen. Ein kurzer Satz wie «Bitte beachte weiterhin: Schreib auf Deutsch, kurz und ohne Fachjargon» reicht oft. Kein Aufwand, spürbare Wirkung.

Wenn Agenten autonom arbeiten

Bisher haben wir über Chats gesprochen, bei denen du aktiv dabei bist. Aber KI-Agenten arbeiten zunehmend autonom, mehrere Schritte hintereinander, ohne dass du jeden einzelnen bestätigst.

Mit jedem Schritt produziert ein Agent mehr Kontext. Jede Aktion, jedes Zwischenergebnis, jede Entscheidung füllt den Notizblock weiter. Irgendwann wird komprimiert oder vergessen, und dann können genau die Anweisungen verschwinden, die den Agenten in Schranken halten sollten. Genau das ist Summer Yue passiert.

Der ehrliche Realitätscheck

Agenten können eine Stunde lang arbeiten und viele Probleme lösen. Oder auch viele neue schaffen. Fehler multiplizieren sich, wenn der Kontext falsch ist.

Wer Agenten im Unternehmen einsetzen will, sollte drei Dinge beachten:

Klein anfangen, in abgegrenzten Bereichen
IT-Sicherheit ernst nehmen (Stichwort: Prompt Injections und viele mehr …)
Checkpoints einbauen, bei denen ein Mensch prüft, was der Agent gemacht hat (das machen Tools wie Manus z. B. automatisch)

«Human in the Loop» ist kein nettes Extra, sondern eine zwingende Notwendigkeit. Darüber werden wir in einem der nächsten Newsletter sicher mal noch ausführlicher sprechen.

Key Takeaways

KI hat kein Langzeitgedächtnis. Jeder neue Chat beginnt bei null.
Das Kontextfenster ist begrenzt, und die Qualität lässt oft schon weit vor dem theoretischen Limit nach.
Informationen in der Mitte langer Kontexte werden schlechter verarbeitet als am Anfang oder Ende.
Kurze, fokussierte Chats liefern bessere Ergebnisse als endlose Threads.
Personalisierungsfelder und Erinnerungen sind nützlich, aber sie zählen auch zum Kontextfenster. Sie sind nicht gratis.
Bei KI-Agenten wird das Problem noch relevanter, weil sie eigenständig Kontext produzieren.

Fazit

Stell dir vor, du hast eine neue Mitarbeiterin, die sehr, sehr klug ist, sich aber an nichts Aktuelles erinnern kann. Du musst sie jedes Mal neu briefen. Das ist KI wie wir sie heute haben. Und je besser du briefst, desto besser ist die Arbeit, die sie zurückliefert.

Das Kontextfenster ist heute der grösste Flaschenhals. Nicht nur meine Meinung, sondern eine technische Realität. Die Forschung arbeitet an deutlich grösseren Fenstern (10 Millionen Token und mehr). Aber das braucht Zeit.

Bis dahin sind ein bewusster Umgang mit dieser Thematik und das Befolgen obiger Tipps der Schlüssel zu qualitativ hochwertigen Ergebnissen.

Das Schöne daran: Die Anpassungen sind einigermassen simpel.

Kürzere Chats
Wichtiges nach vorne
Kontext bewusst hinterlegen
Abgesendete Prompts bearbeiten statt endlos hin- und herschreiben

Keine komplizierten Tricks, einfach ein bewussterer Umgang mit der Technologie.

Ich hoffe, das war nicht allzu theoretisch und dass ich es einigermassen verständlich rübergebracht habe.

Probier die Tipps einfach mal aus. Ich bin gespannt, was du feststellst.

Bei Fragen darfst du dich immer gerne direkt via «Antworten» direkt auf diese Mail melden.

Bis nächsten Sonntag 👋🏽

Andreas