Zum Hauptinhalt springen

Kontextverdichtung

Die Kontextverdichtung verwaltet automatisch das Kontextfenster eines Gesprächs, um zu verhindern, dass Sitzungen fehlschlagen, wenn sie das Token-Limit des Modells erreichen. Wenn ein Gespräch groß wird, werden ältere Nachrichten intelligent zusammengefasst, während der aktuelle Kontext und kritische Artefakte (Code-Blöcke, Dateipfade, Fehlermeldungen) unverändert erhalten bleiben.

Funktionsweise

  1. Überwachung — Die Plattform verfolgt die Token-Nutzung, während sich Nachrichten in einem Gespräch ansammeln
  2. Auslösung — Wenn die Nutzung den Schwellenwert überschreitet (Standard: 80 % des Kontext-Limits des Modells), beginnt die Verdichtung
  3. Zusammenfassung — Ältere Nachrichten werden von einem LLM zusammengefasst, wobei folgendes erhalten bleibt:
    • Die neuesten Nachrichten unverändert (Standard: letzte 10)
    • Code-Blöcke und Dateipfade
    • Fehlermeldungen und Stack-Traces
  4. Fallback — Wenn die Zusammenfassung fehlschlägt, fällt das System auf Kürzung zurück (Entfernung der ältesten Nachrichten)

Was Sie sehen

Wenn die Verdichtung läuft, erscheint in der Chat-Benutzeroberfläche ein Fortschrittsanzeiger für die Kontextverdichtung, ähnlich einer Werkzeugaufruf-Anzeige. Die Verdichtung ist ansonsten transparent – Gespräche werden ohne Unterbrechung fortgesetzt.

Standardeinstellungen

EinstellungStandardBeschreibung
Auslöseschwellenwert80 %Die Verdichtung beginnt, wenn das Gespräch 80 % des Kontext-Limits des Modells erreicht
Unverändertes Fenster10 NachrichtenDie neuesten 10 Nachrichten werden immer vollständig beibehalten
Zielwert nach der Verdichtung65 %Nach der Verdichtung wird das Gespräch auf ca. 65 % des Kontext-Limits reduziert

Den Schwellenwert verstehen

Der Schwellenwert arbeitet mit einem Antwortpuffer. Die Plattform reserviert ca. 8 % des Kontexts für die Antwort des Modells, sodass der effektive Auslösepunkt folgendermaßen berechnet wird:

effective_trigger = context_limit × (1 - 0.08) × threshold_percent

Bei einem 128K-Token-Modell mit dem Standard-Schwellenwert von 80 %:

  • Effektives Limit: 128.000 × 0,92 = 117.760 Token
  • Auslösepunkt: 117.760 × 0,80 = 94.208 Token

Fehlertolerantes Verhalten

Wenn die Zusammenfassung fehlschlägt (zum Beispiel weil das konfigurierte Modell vorübergehend nicht verfügbar ist):

  1. Das System versucht es nach einer kurzen Verzögerung einmal erneut
  2. Dann fällt es auf das Kürzen der ältesten Nachrichten zurück
  3. Der Fallback wird intern protokolliert

Chat-Sitzungen funktionieren weiterhin, auch wenn die Verdichtung auf den Kürzungsmodus zurückfällt.

hinweis

Die Einstellungen für die Kontextverdichtung werden auf Plattformebene von BasePeak verwaltet. Wenden Sie sich an den BasePeak Support, wenn Sie die Standardwerte für Ihren Workspace anpassen möchten.