Kontextverdichtung
Die Kontextverdichtung verwaltet automatisch das Kontextfenster eines Gesprächs, um zu verhindern, dass Sitzungen fehlschlagen, wenn sie das Token-Limit des Modells erreichen. Wenn ein Gespräch groß wird, werden ältere Nachrichten intelligent zusammengefasst, während der aktuelle Kontext und kritische Artefakte (Code-Blöcke, Dateipfade, Fehlermeldungen) unverändert erhalten bleiben.
Funktionsweise
- Überwachung — Die Plattform verfolgt die Token-Nutzung, während sich Nachrichten in einem Gespräch ansammeln
- Auslösung — Wenn die Nutzung den Schwellenwert überschreitet (Standard: 80 % des Kontext-Limits des Modells), beginnt die Verdichtung
- Zusammenfassung — Ältere Nachrichten werden von einem LLM zusammengefasst, wobei folgendes erhalten bleibt:
- Die neuesten Nachrichten unverändert (Standard: letzte 10)
- Code-Blöcke und Dateipfade
- Fehlermeldungen und Stack-Traces
- Fallback — Wenn die Zusammenfassung fehlschlägt, fällt das System auf Kürzung zurück (Entfernung der ältesten Nachrichten)
Was Sie sehen
Wenn die Verdichtung läuft, erscheint in der Chat-Benutzeroberfläche ein Fortschrittsanzeiger für die Kontextverdichtung, ähnlich einer Werkzeugaufruf-Anzeige. Die Verdichtung ist ansonsten transparent – Gespräche werden ohne Unterbrechung fortgesetzt.
Standardeinstellungen
| Einstellung | Standard | Beschreibung |
|---|---|---|
| Auslöseschwellenwert | 80 % | Die Verdichtung beginnt, wenn das Gespräch 80 % des Kontext-Limits des Modells erreicht |
| Unverändertes Fenster | 10 Nachrichten | Die neuesten 10 Nachrichten werden immer vollständig beibehalten |
| Zielwert nach der Verdichtung | 65 % | Nach der Verdichtung wird das Gespräch auf ca. 65 % des Kontext-Limits reduziert |
Den Schwellenwert verstehen
Der Schwellenwert arbeitet mit einem Antwortpuffer. Die Plattform reserviert ca. 8 % des Kontexts für die Antwort des Modells, sodass der effektive Auslösepunkt folgendermaßen berechnet wird:
effective_trigger = context_limit × (1 - 0.08) × threshold_percent
Bei einem 128K-Token-Modell mit dem Standard-Schwellenwert von 80 %:
- Effektives Limit: 128.000 × 0,92 = 117.760 Token
- Auslösepunkt: 117.760 × 0,80 = 94.208 Token
Fehlertolerantes Verhalten
Wenn die Zusammenfassung fehlschlägt (zum Beispiel weil das konfigurierte Modell vorübergehend nicht verfügbar ist):
- Das System versucht es nach einer kurzen Verzögerung einmal erneut
- Dann fällt es auf das Kürzen der ältesten Nachrichten zurück
- Der Fallback wird intern protokolliert
Chat-Sitzungen funktionieren weiterhin, auch wenn die Verdichtung auf den Kürzungsmodus zurückfällt.
Die Einstellungen für die Kontextverdichtung werden auf Plattformebene von BasePeak verwaltet. Wenden Sie sich an den BasePeak Support, wenn Sie die Standardwerte für Ihren Workspace anpassen möchten.