Claude Token-Verbrauch optimieren: Chat vs. Cowork richtig einsetzen

TL;DR — Kurzantwort

Tokens sind die Währung bei Claude. Wer versteht, wann Chat und wann Cowork die bessere Wahl ist, spart Tokens und arbeitet effizienter. Hier sind die wichtigsten Strategien aus dem AI Mitarbeiter Bootcamp.

01. April 2026Aktualisiert: 19. April 20264 Min. LesezeitAI-generiert, von Nauti kuratiert

Die häufigste Frustration im AI Mitarbeiter Bootcamp Session 2: Token-Limits erreicht, obwohl man gerade erst angefangen hat. Das passiert, wenn man Cowork für alles nutzt — auch für Aufgaben, die im Chat deutlich Token-effizienter wären. Hier lernst du, wann du welchen Modus wählst und wie du deinen Token-Verbrauch optimierst.

Dieser Artikel enthält Recherche-Tipps von Dirk aus der AInauten-Community — danke für die wertvollen Praxis-Erfahrungen!

Infografik: Claude Token-Verbrauch optimieren: Chat vs. Cowork richtig einsetzen

Claude bietet zwei Arbeitsmodi, die sich grundlegend im Token-Verbrauch unterscheiden:

Eigenschaft	Chat	Cowork
Kontext-Overhead	Minimal — nur dein Prompt + Claudes Antwort	Hoch — System-Prompt, Tool-Definitionen, Dateien, Connectors
Token pro Anfrage	Niedrig (hunderte bis tausende)	Hoch (tausende bis zehntausende)
Ideal für	Einzelfragen, Texte schreiben, Brainstorming	Mehrstufige Aufgaben, Dateiarbeit, Tool-Nutzung
Session-Kosten	Wächst langsam mit Gesprächslänge	Startet hoch und wächst schnell

Warum Cowork mehr Tokens verbraucht

Jedes Mal, wenn du in Cowork eine Nachricht sendest, schickt Claude im Hintergrund deutlich mehr mit:

System-Prompt: Die Anweisungen, wie Cowork funktioniert (~2.000-4.000 Tokens)
Tool-Definitionen: Jeder aktive Connector (Google Drive, Outlook, etc.) fügt seine Tool-Beschreibungen hinzu
Context Files: CLAUDE.md, Projekt-Dateien und andere referenzierte Dokumente
Bisheriger Gesprächsverlauf: Alles, was in dieser Session bereits besprochen wurde

Das bedeutet: Selbst eine einfache Frage wie "Was ist 2+2?" kostet in Cowork ein Vielfaches der Tokens, die sie im Chat kosten würde.

Nutze Chat für:

Einzelne Fragen beantworten ("Erkläre mir den Unterschied zwischen...")
Texte schreiben (E-Mails, Social Posts, Zusammenfassungen)
Brainstorming und Ideenfindung
Einfache Analysen von kopiertem Text
Schnelle Kalender-Checks ("Was steht morgen an?")
Code-Snippets erklären oder schreiben

Nutze Cowork für:

Mehrstufige Workflows ("Lies diese Datei, analysiere sie, erstelle einen Report")
Dateioperationen (Ordner durchsuchen, Dateien erstellen/bearbeiten)
Browser-Aufgaben über Claude in Chrome
Cross-Tool-Aufgaben (Daten aus Drive + Kalender + E-Mail kombinieren)
Längere Recherchen mit Web-Suche
Automatisierungen und Scheduled Tasks einrichten

Nicht jede Aufgabe braucht das stärkste Modell. Claude bietet drei Stufen — und die Modellwahl hat direkten Einfluss auf deinen Token-Verbrauch:

Modell	Stärke	Ideal für
Opus	Maximale Qualität	Komplexe Analyse, kreative Arbeit mit hohem Anspruch, vielschichtige Aufgaben
Sonnet	Solider Allrounder	Textarbeit, Recherche, Zusammenfassungen, der tägliche Arbeitsbetrieb
Haiku	Schnell und sparsam	Sortieren, Extrahieren, Formatieren, einfache Aufgaben

Faustregel: Starte mit Sonnet. Wechsle nur zu Opus, wenn die Aufgabe tatsächlich komplex ist. Nutze Haiku für alles, was keine tiefe Analyse braucht. Im Zweifel kannst du Claude sogar fragen: "Welches Modell empfiehlst du für diese Aufgabe?"

1. Neue Sessions starten — mit Übergabe-Prompt

Der größte Token-Fresser: Lange Sessions. Mit jeder Nachricht wächst der Kontext, den Claude bei jeder Antwort mitverarbeiten muss. Nach 20-30 Nachrichten in einer Cowork-Session verbraucht jede neue Antwort enorme Token-Mengen.

Regel: Starte eine neue Session, sobald du das Thema wechselst. Lieber 5 kurze Sessions als eine endlose.

Profi-Tipp: Bevor du einen langen Chat beendest, bitte Claude: "Fasse die wichtigsten Erkenntnisse zusammen und formuliere einen Prompt, mit dem ein neuer Chat nahtlos anknüpfen kann." So geht kein Kontext verloren, aber der Token-Ballast wird abgeworfen.

2. Context Files schlank halten

Deine CLAUDE.md und andere Context Files werden bei jeder Nachricht mitgesendet. Wenn deine CLAUDE.md 5.000 Wörter lang ist, kostet dich das bei jeder einzelnen Nachricht Tokens.

Tipps:

Halte CLAUDE.md unter 500 Wörter — nur das Wichtigste
Nutze Projekt-spezifische Context Files statt alles in eine Datei zu packen
Entferne Context Files, die du für die aktuelle Aufgabe nicht brauchst
Custom Instructions präzise formulieren — je klarer sie sind, desto weniger Korrekturschleifen braucht es im Chat

Mehr dazu: Die Kontext-Pyramide: So strukturierst du Claude richtig

3. Connectors gezielt aktivieren

Jeder aktive Connector fügt Tool-Definitionen zum Kontext hinzu — auch wenn du ihn gerade nicht brauchst. Wenn Google Drive, Gmail, Calendar, Slack und Notion gleichzeitig aktiv sind, verbrauchst du bei jeder Nachricht Tokens für 5 Connector-Definitionen.

Regel: Aktiviere nur die Connectors, die du für die aktuelle Aufgabe brauchst. Deaktiviere den Rest.

4. Präzise Prompts statt vager Anweisungen

Vage Prompts führen zu langen Antworten und Nachfragen — beides kostet Tokens. Wer vorher zwei Minuten in die Formulierung investiert, spart danach Token im dreistelligen Bereich.

Statt: "Schau mal in meine E-Mails" → "Fasse die letzten 3 E-Mails von max@firma.de in je einem Satz zusammen"
Statt: "Hilf mir mit meinem Projekt" → "Erstelle eine Gliederung für einen Blogpost zum Thema X mit 5 Abschnitten"
Kontext, Ziel und gewünschtes Format gleich mitliefern

5. Ergebnisse in Dateien auslagern — nicht im Chat wiederholen

Claude kann Ergebnisse direkt als Datei speichern (Markdown, DOCX, XLSX). Das ist effizienter, als lange Texte im Chat-Verlauf mitzuschleppen, die bei jeder weiteren Nachricht erneut mitgesendet werden.

Wichtig: Wenn Claude ein Ergebnis in eine Datei geschrieben hat, muss es nicht zusätzlich im Chat nochmal ausführlich erläutert werden. Ein kurzer Hinweis reicht. Wer das Ergebnis nochmal im Chat sehen will, zahlt doppelt.

6. Große Dokumente clever handhaben

Jede hochgeladene Datei verbraucht Tokens. Nicht den ganzen Ordner hochladen, wenn nur drei Seiten relevant sind.

PDFs aufteilen: Ein 80-Seiten-PDF in einem Rutsch verarbeiten zu lassen ist teuer. Besser: in logische Abschnitte aufteilen und schrittweise bearbeiten, idealerweise in separaten Chats
Nur relevante Seiten: Bei PDFs die relevanten Seiten extrahieren, bevor sie in den Chat gehen
Nicht mehrfach hochladen: Dieselbe Datei in verschiedenen Nachrichten hochzuladen kostet jedes Mal erneut Tokens

7. Aufgaben-Architektur: Erst günstig, dann teuer

Komplexe Projekte profitieren von einer durchdachten Reihenfolge:

Recherchieren und sammeln mit einem günstigeren Modell (Sonnet oder Haiku)
Analysieren und schreiben mit dem stärkeren Modell (Opus)
Teilaufgaben in eigenen Chats erledigen und Zwischenergebnisse als Dateien sichern

Cowork kann auch Sub-Agents für Teilaufgaben starten. Die arbeiten mit eigenem, begrenztem Kontext und belasten den Haupt-Chat nicht mit Tokens. Besonders sinnvoll bei Recherche- oder Prüfaufgaben.

Einige Token-Fresser sind nicht offensichtlich:

Screenshots und Bilder: Werden als token-intensive Bilddaten verarbeitet — ein einzelner Screenshot kann tausende Tokens kosten
Lange System-Prompts und Custom Instructions: Werden bei jeder Nachricht mitgesendet
Code-Blöcke und Tabellen im Chat-Verlauf: Besonders token-intensiv, wenn sie im Kontext mitlaufen
Wiederholtes Nachfragen: "Mach das nochmal, aber anders" kostet den gesamten bisherigen Kontext plus die neue Antwort
Mehrfaches Hochladen: Dieselbe Datei in verschiedenen Nachrichten hochladen = mehrfach bezahlen

Skills sind gespeicherte Arbeitsanweisungen. Statt bei jedem Chat aufs Neue zu erklären, wie ein Floskel-Check oder ein bestimmtes Format aussehen soll, erledigt der Skill das in einem Aufruf. Das spart die Tokens, die sonst für Erklärungen und Korrekturschleifen draufgehen.

Wer regelmäßig denselben Arbeitsschritt braucht, sollte daraus einen Skill bauen lassen. Einmal investieren, danach bei jeder Nutzung sparen.

Mehr dazu: Claude Skills erklärt: Von der Idee zum wiederverwendbaren Rezept

Füge diesen Abschnitt in deine CLAUDE.md ein, damit Claude selbst auf Token-Effizienz achtet:

## Token-Effizienz
- Antworte präzise und kompakt, nicht ausschweifend
- Frag nach, wenn mein Prompt unklar ist — statt zu raten und lange falsche Antworten zu generieren
- Wenn eine Aufgabe auch im Chat erledigt werden kann, sag mir das
- Fasse lange Dokumente zusammen, bevor du sie vollständig in den Kontext lädst
- Ergebnisse in Dateien speichern, nicht im Chat wiederholen
- Wenn unser Gespräch lang wird (ab ~15-20 Nachrichten), erinnere mich aktiv: "Soll ich den bisherigen Stand zusammenfassen, damit du einen frischen Chat starten kannst?"

Wichtig: Dieser Baustein funktioniert überall, wo du Claude Anweisungen mitgeben kannst — ob in der CLAUDE.md (Cowork), in den Project Instructions (claude.ai Projekte) oder sogar in deinem allerersten Prompt einer Session. Claude folgt der Anweisung unabhängig davon, wo sie steht.

Das Prinzip: Mach Token-Effizienz zur Systemregel, nicht zur Willensleistung. Statt dich selbst daran zu erinnern, einen neuen Chat zu starten, lässt du Claude dich daran erinnern. Das ist wie ein Schrittzähler, der piept — du musst nicht selbst mitzählen.

Chat = token-effizient: Für Einzelfragen, Texte, Brainstorming
Cowork = token-intensiv: Für Dateiarbeit, Multi-Tool-Workflows, Automatisierung
Modell wählen: Nicht alles braucht Opus — Sonnet und Haiku sparen massiv
Neue Sessions starten: Lieber 5 kurze als eine endlose Session — mit Übergabe-Prompt
Context Files schlank: CLAUDE.md unter 500 Wörter, nur aktive Connectors
Dateien statt Chat: Ergebnisse in Dateien speichern, nicht im Verlauf mitschleppen
Erst günstig, dann teuer: Recherche mit Haiku/Sonnet, Analyse mit Opus
Verbrauch checken: claude.ai/settings/usage