Kontextverdichtung

Die Kontextverdichtung verwaltet automatisch das Kontextfenster eines Gesprächs, um zu verhindern, dass Sitzungen fehlschlagen, wenn sie das Token-Limit des Modells erreichen. Wenn ein Gespräch groß wird, werden ältere Nachrichten intelligent zusammengefasst, während der aktuelle Kontext und kritische Artefakte (Code-Blöcke, Dateipfade, Fehlermeldungen) unverändert erhalten bleiben.

Funktionsweise

Überwachung — Die Plattform verfolgt die Token-Nutzung, während sich Nachrichten in einem Gespräch ansammeln
Auslösung — Wenn die Nutzung den Schwellenwert überschreitet (Standard: 80 % des Kontext-Limits des Modells), beginnt die Verdichtung
Zusammenfassung — Ältere Nachrichten werden von einem LLM zusammengefasst, wobei folgendes erhalten bleibt:
- Die neuesten Nachrichten unverändert (Standard: letzte 10)
- Code-Blöcke und Dateipfade
- Fehlermeldungen und Stack-Traces
Fallback — Wenn die Zusammenfassung fehlschlägt, fällt das System auf Kürzung zurück (Entfernung der ältesten Nachrichten)

Was Sie sehen

Wenn die Verdichtung läuft, erscheint in der Chat-Benutzeroberfläche ein Fortschrittsanzeiger für die Kontextverdichtung, ähnlich einer Werkzeugaufruf-Anzeige. Die Verdichtung ist ansonsten transparent – Gespräche werden ohne Unterbrechung fortgesetzt.

Standardeinstellungen

Einstellung	Standard	Beschreibung
Auslöseschwellenwert	80 %	Die Verdichtung beginnt, wenn das Gespräch 80 % des Kontext-Limits des Modells erreicht
Unverändertes Fenster	10 Nachrichten	Die neuesten 10 Nachrichten werden immer vollständig beibehalten
Zielwert nach der Verdichtung	65 %	Nach der Verdichtung wird das Gespräch auf ca. 65 % des Kontext-Limits reduziert

Den Schwellenwert verstehen

Der Schwellenwert arbeitet mit einem Antwortpuffer. Die Plattform reserviert ca. 8 % des Kontexts für die Antwort des Modells, sodass der effektive Auslösepunkt folgendermaßen berechnet wird:

effective_trigger = context_limit × (1 - 0.08) × threshold_percent

Bei einem 128K-Token-Modell mit dem Standard-Schwellenwert von 80 %:

Effektives Limit: 128.000 × 0,92 = 117.760 Token
Auslösepunkt: 117.760 × 0,80 = 94.208 Token

Fehlertolerantes Verhalten

Wenn die Zusammenfassung fehlschlägt (zum Beispiel weil das konfigurierte Modell vorübergehend nicht verfügbar ist):

Das System versucht es nach einer kurzen Verzögerung einmal erneut
Dann fällt es auf das Kürzen der ältesten Nachrichten zurück
Der Fallback wird intern protokolliert

Chat-Sitzungen funktionieren weiterhin, auch wenn die Verdichtung auf den Kürzungsmodus zurückfällt.

hinweis

Die Einstellungen für die Kontextverdichtung werden auf Plattformebene von BasePeak verwaltet. Wenden Sie sich an den BasePeak Support, wenn Sie die Standardwerte für Ihren Workspace anpassen möchten.

Funktionsweise​

Was Sie sehen​

Standardeinstellungen​

Den Schwellenwert verstehen​

Fehlertolerantes Verhalten​

Funktionsweise

Was Sie sehen

Standardeinstellungen

Den Schwellenwert verstehen

Fehlertolerantes Verhalten