Große Sprachmodelle liefern beeindruckende Antworten – aber nicht immer die richtigen. Was tun? Das CO-STAR-Framework bietet eine strukturierte Methode, um Prompts so zu optimieren, dass die Qualität und Relevanz der generierten Antworten deutlich ansteigen. CO-STAR zeigt, wie Unternehmen mit intelligentem Prompting mehr Präzision und Konsistenz aus der KI herausholen.
Große Sprachmodelle liefern beeindruckende Antworten – aber nicht immer die richtigen. Was tun? Das CO-STAR Framework bietet eine strukturierte Methode, um Prompts so zu optimieren, dass die Qualität und Relevanz der generierten Antworten deutlich ansteigen. CO-STAR zeigt, wie Unternehmen mit intelligentem Prompting mehr Präzision und Konsistenz aus der KI herausholen.
Jeder, der mit großen KI-Sprachmodellen (LLMs) arbeitet, kennt die Herausforderung: Sie reagieren schnell und formulieren überzeugend, sind aber nicht immer korrekt oder zuverlässig. Für den produktiven Einsatz in Unternehmen reicht das nicht aus. Entscheidend ist, dass die KI immer wieder genau das tut, was verlangt wird. Der Schlüssel dazu liegt im Prompting, also in der Art und Weise, wie Aufgaben für ein Modell formuliert werden. Das CO-STAR Framework ist ein erprobtes Verfahren, um Struktur und Konsistenz zu erreichen.
Warum Prompting entscheidend ist
LLMs sind darauf trainiert, in fast jedem Kontext eine Antwort zu geben. Obwohl dies auf den ersten Blick flexibel und hilfreich erscheint, führt es zu typischen Problemen:
Scheinbare Korrektheit: Die Antworten klingen zwar plausibel, aber der Inhalt ist trotzdem falsch.
Inkonsistenz: Kunden werden mal förmlich, mal eher beiläufig angesprochen.
Mangelnde Präzision: Kleinteilige Entscheidungen scheitern oft.
Mangelnde Differenzierung: Anfragen, die nicht in den vorgesehenen Kontext passen, werden irgendwie beantwortet statt abgelehnt.
Mangelnde Verlässlichkeit: Bei mehrmaliger Ausführung der gleichen Aufforderung werden unterschiedliche Ergebnisse erzielt.
Damit KI im Arbeitsalltag zuverlässig arbeiten kann, braucht sie Prompts, die den Kontext abgrenzen und klare Handlungsanweisungen geben. Zu diesem Zweck gibt es zahlreiche Prompting-Richtlinien, die das LLM dazu bringen, den riesigen Kontext einzugrenzen und sich nur mit einer bestimmten Aufgabe zu beschäftigen. Eines dieser Prompting-Frameworks, das wir auch intern verwenden, heißt „CO-STAR“, das 2023 einen Prompting-Engineering-Wettbewerb in Singapur, die Singapore’s GPT-4 Prompt Engineering competition,
gewonnen hat. Dieses Framework wird von VIER verwendet.
Der CO-STAR-Rahmen: Struktur und Grundsätze
Der CO-STAR-Rahmen bietet eine strukturierte Vorlage für Prompter. Es besteht aus sechs Bausteinen:
-
Context
-
Objective/Zielsetzung
-
Stil
-
Tonfall
-
Audience/Zuhörerschaft (Zielgruppe)
-
Response Format/Antwortformat
Es ist eigentlich eher für den kreativen Bereich gedacht, z. B. für das Schreiben von Blogbeiträgen. Aber mit kleinen Anpassungen eignet es sich auch für präzise Anwendungen, wie wir sie im Kundenservice brauchen. Wir haben daher ein angepasstes CO-STAR Framework für das interne Prompting entwickelt.
Angepasstes CO-STAR Prompting für den Kundenservice
Für eine präzise Anwendung, wie wir sie im Kundenservice benötigen, konzentrieren wir uns mehr auf die auszuführenden Schritte und haben Ton und Stil kombiniert. Unser modifizierter CO-STAR-Rahmen sieht nun wie folgt aus:
-
Context: Welche Rolle soll das Modell spielen? In welchem Szenario wird es eingesetzt?
-
Objective/Zielsetzung: Klare und kurze Definition des Ziels: Was genau soll erreicht werden?
-
Schritte: Welche Schritte sind notwendig, um das Ziel zu erreichen? Gliedern Sie die einzelnen Schritte auf, fügen Sie Regeln und Beispiele ein.
-
Tonfall: Welcher Tonfall ist angemessen (z. B. sachlich, freundlich, formell)?
-
Adressaten: Für wen ist die Antwort bestimmt?
-
Response/Format der Antwort: In welchem Format soll die Ausgabe erfolgen (z. B. JSON, Markdown, Fließtext)?
Vergleich: Einfacher Prompt vs. angepasster CO-STAR
Ein anschauliches Beispiel ist die Aufgabe, den Kleinbuchstaben „r“ in einem Satz zu zählen und diese Aufforderung zehn Mal mit GPT-4o mini zu wiederholen.
Variante 1 – Einfacher Prompt ohne CO-STAR
Wir schreiben einen einfachen Prompt:
„Zähle die r im folgenden Satz: Der rar gewordene Karakara kreist ruhelos.“
Das Ergebnis: In nur einem von zehn Fällen zählt die KI richtig, in den anderen neun Fällen falsch. Das Modell liefert eine Zahl, die zwar plausibel klingt, aber nicht stimmt. Oft liefert das KI-Modell auch noch eine Erklärung dazu, diese ist aber sehr häufig ebenso falsch.
Variante 2 – Adaptierter CO-STAR-Prompt
Wir schreiben nun für unser Beispiel mit dem Buchstaben-Zählen einen CO-STAR-Prompt:
Context: „Du bist ein gewissenhafter Lektor.“
Objective: „Zähle die kleingeschriebenen r im folgenden Satz: Der rar gewordene Karakara kreist ruhelos.“
Steps: „Gehe Buchstabe für Buchstabe vor, notiere jedes r, überprüfe am Ende die Gesamtsumme.“
(Tone und Audience: irrelevant, da nur eine Zahl erwartet wird.)
Response Format: Zahl.
Das Ergebnis: In 9 von 10 Fällen antwortet das LLM korrekt. Wenn Sie dies selbst einmal ausprobieren, beispielsweise mit ChatGPT4o mini, werden Sie merken, dass das LLM eigenständig verschiedene Schritte durchläuft und sich dabei selbst überprüft. So nähert es sich Schritt für Schritt der richtigen Antwort. Das zeigt, dass dieses schrittweise Vorgehen („Steps“) hier extrem wichtig ist.
CO-STAR in der Praxis
Die wahre Stärke des Frameworks zeigt sich im Unternehmenskontext. Hier drei Beispiele mit steigender Komplexität:
Zusammenfassungen von Gesprächen
Texte verstehen und in kürzere Form zusammenfassen können LLMs von Natur aus relativ gut. Die Herausforderung hierbei ist, dass Kundendialoge schnell und präzise zusammengefasst werden müssen – inklusive Zusatzinformationen wie Problemlösungswahrscheinlichkeit oder Kundenzufriedenheit. So könnte beispielhaft dafür ein CO-STAR-Prompt aussehen:
Context: „Du bist ein Analyseexperte für Kundenservicegespräche.“
Objective: „Fasse das Gespräch zusammen, schätze ein, ob das Problem gelöst wurde und wie zufrieden der Kunde war.“
Steps: „Extrahiere wichtige Inhalte, bewerte die Lösungswahrscheinlichkeit und die Kundenzufriedenheit mit Hilfe einer vorgegebenen Skala, kategorisiere das Gespräch.“
[Hier können Sie sehr präzise werden und einen Schwerpunkt angeben, eine Skala für die Einschätzung von Zufriedenheit und Lösungswahrscheinlichkeit vorgeben und die Kategorien, in die das Gespräch eingeordnet werden soll.]
Tone: Präzise, sachlich und strukturiert.
Audience: Interne Service-Mitarbeitende.
Response Format: JSON (z. B. für CRM-Integration).
Das Ergebnis: Sie erhalten automatisierte Gesprächszusammenfassungen, erzielen eine
Zeitersparnis von mindestens 45 Sekunden pro Call und erhalten zusätzliche strukturierte Daten für Folgeprozesse.
Smart IVR (intelligente Vorqualifizierung von Anrufen)
Bei eingehenden Anrufen soll die KI Rückrufnummern erfassen, Anliegen verstehen und direkt an die richtige Abteilung weiterleiten. Es sind also kleinteilige Entscheidungen notwendig und der Prompt muss präziser sein und spezifischen Regeln folgen. So sieht ein stark vereinfachter CO-STAR-Prompt für dieses Beispiel aus:
Context: „Du bist ein virtueller Assistent für Kundenanfragen.“
Objective: „Erfasse die Rückrufnummer, ermittle das Anliegen und leite an die richtige Abteilung weiter.“
Steps: „1. Rückrufnummer abfragen. 2. Anliegen ermitteln. 3. Anliegen einer Abteilung zuordnen. 4. Bestätigung geben und weiterleiten.“
[Auch hier können Sie die Schritte weiter präzisieren und mit Beispielen anreichern.]
Tone: Freundlich, klar. Sprich Kunden mit „Sie“ an.
Audience: Kund:innen am Telefon.
Response Format: JSON mit Feldern wie {„callback_number“: „12345“, „intent“: „Schadensmeldung“, „department“: „Haus und Wohnen“}
Das Ergebnis: Sie erreichen eine strukturierte Vorqualifizierung auch bei unklaren Fällen, sichern die hohe Konsistenz durch feste Regeln und eine nahtlose Integration in interne Systeme.
Wissensbasierte Chatbots
Ein Chatbot soll Fragen beantworten – aber ausschließlich auf Basis interner Wissensdatenbanken. In diesem Szenario hat das KI-Modell viel mehr Freiheiten, da wir Antworten produzieren lassen. Die Herausforderung hierbei ist jedoch, dass sich das LLM an das Wissen aus der Datenbank hält und möglichst wenig Allgemeinwissen in die Antworten einfließen lässt. Der (stark vereinfachte) CO-STAR-Prompt dazu wäre z.B.:
Context: „Du bist ein interner Chatbot namens CoRA, der nur Informationen über das Unternehmen VIER geben darf.“
Objective: „Beantworte Fragen auf Basis der Wissensdatenbank, lehne irrelevante Fragen ab.“
Steps: „1. Prüfe, ob die Frage durch die Datenbank beantwortbar ist. 2. Antworte nur mit Informationen aus der Datenbank. 3. Lehne Fragen außerhalb des Kontexts ab.“
[Hier können Sie konkrete Regeln aufstellen, welche Themen erlaubt sind und welche nicht, ob der Bot in Konversationen einsteigen darf etc.]
Tone: Freundlich, professionell, nahbar.
Audience: Mitarbeitende im Unternehmen.
Response Format: Markdown, inkl. drei Folgefragen zur Vertiefung.
Das Ergebnis: Sie erreichen eine deutlich verbesserte „Faithfulness“ (Treue zum Unternehmenswissen), ein verlässliches Refusal-Management (keine Beantwortung irrelevanter Fragen) und eine positive Nutzererfahrung durch konsistente Tonalität.
Prompting bleibt iterativ
Aber auch mit CO-STAR ist der erste Prompt selten der beste. Prompting ist und bleibt ein iterativer Prozess, der systematisch getestet und optimiert werden muss. Die folgenden Best Practices haben sich in der Praxis bewährt:
-
Klarheit vor Länge: Kurze, klare Ziele statt langatmiger Texte.
-
Beispiele einbinden: Konkrete Muster (z. B. JSON-Schema) erhöhen die Erfolgsquote.
-
Live-Überwachung: Beobachten Sie die Ergebnisse während des Betriebs und passen Sie sie laufend an.
Das CO-STAR-Framework zeigt, wie LLMs durch klare Struktur und Schritt-für-Schritt-Anleitungen von „unsicheren Plaudertaschen“ hin zu zuverlässigen Teamplayern entwickelt werden können. Ob für Call Summaries, Vorqualifizierung von Anrufen oder wissensbasierte Chatbots – CO-STAR sorgt dafür, dass KI präzise, konsistent und produktiv eingesetzt werden kann. Prompting ist so nicht länger eine Sache des Zufalls oder des Bauchgefühls, sondern ein Werkzeug, das steuerbar und überprüfbar ist – und damit den produktiven Einsatz von KI im Unternehmen ermöglicht.
Autor: Dr. Anja Linnenbürger ist Head of Research bei VIER.
Tipps für besseres Prompting
So erhöhen Sie Ihre Prompting-Kompetenz, also die Fähigkeit, effektiv und effizient in den Dialog mit der KI einzutreten.
1. Prompts klar strukturieren
Unstrukturierte Prompts führen zu unklaren Ergebnissen. Besser:
-
Bullet Points für Schritt-für-Schritt-Anweisungen
-
Markdown-Überschriften (#, ##) für Themenblöcke oder XML-Struktur
-
Großbuchstaben, um zwingende Vorgaben hervorzuheben (DU MUSST IMMER …)
2. Prompts speichern und wiederverwenden
Bauen Sie eine interne Prompt-Bibliothek auf. Erfolgreiche Prompts sollten dokumentiert werden – beispielsweise in OneNote, Confluence oder Ihrem Wissensmanagement-System. So vermeiden Sie Doppelarbeit und schaffen Standards für wiederkehrende Szenarien.
Der Vorteil: Neue Use Cases lassen sich schneller aufbauen, ohne jedes Mal bei null anzufangen. Eine interne Prompt-Bibliothek sorgt für Konsistenz und spart Zeit bei zukünftigen Projekten.
3. Wichtig für Contact Center-Voicebots
-
Transparenz schaffen: KI-Agents sollten sich als solche erkennbar machen (Pflicht nach EU AI Act).
-
Ton und Stil anpassen: Ein Versicherungs-Voicebot braucht Empathie, ein IT-Support-Voicebot eher Präzision.
-
Emotionale Intelligenz simulieren: Auf Aussagen wie „Ich hatte einen Unfall“ sollte der Bot mit Empathie reagieren.
-
Kurze vs. lange Antworten: Kurze Antworten für Routing, längere bei FAQ-Szenarien.
-
Stimmen und Temperature testen: Finden Sie die passende Mischung aus Natürlichkeit und Konsistenz.