Budgets im AI-Chat und AI-Gateway

Information
Information
Informationen
Betriebssystem	Alle
Service	KI
Interessant für	Angestellte und Studierende
HilfeWiki des ZIM der Uni Paderborn

KI

Allgemeine Informationen

Die Nutzung von KI-Modellen verursachen Kosten bei den Providern wie OpenAI. Die Kosten hängen von unterschiedlichen Faktoren ab:

Input-Tokens: Die Menge an Text welche Sie einem KI-Modell als Eingabe geben. Dabei zählen neben der eigentlichen Chat-Nachricht auch Daten die als Kontext gesendet werden. Dies sind unteranderem der Chat-Verlauf, wenn Sie im Chat mit Dokumenten arbeiten, oder Inhalten von einer Webseiten-Suche, etc.
Output-Tokens: Die Menge an Text welche das KI-Modell generieren muss. Eine Anfrage wie "Schreibe mir 100 Seiten zum Thema X" hat also sehr wenig Input-Tokens aber eine große Menge an generiertem Text - sprich Output-Tokens. Beim Thinking/Reasoning führt das KI-Model sozusagen ein Selbstgespräch, um sich selbst Kontext zu generieren, ein strukturiertes Vorgehen bei komplexen Aufgaben sicherzustellen oder auch geplante Ausgaben gegenüber Ihrer Anweisung zu validieren und ggf. noch einmal zu verbessern.Thinking-/Reasoning-Tokens zählen ebenfalls zu den generierten Output-Tokens.
Model-Kosten: Die Tokens (Input und Output) werden je nach Wahl des Models unterschiedlich bepreist. So kosten Flagship-Modelle oder High-Reasoning-Models oft mehr für eine Nachricht, als das Mini- oder Nano-Varianten kosten.

Provider veröffentlichen Preislisten wie die von OpenAI: https://developers.openai.com/api/docs/pricing. Der Preis wird hier pro 1M Token angegeben. Eine Million Tokens entsprechen im Englischen ungefähr 750.000 Wörtern. Kostet ein Modell laut Tabelle beispielsweise 5,00 $ pro 1M Tokens, ist der Verbrauch für ein langes Dokument mit 10.000 Tokens umgerechnet 0,05 $ (5 Cent). Eine einfache Nachricht (z.B. 200 Tokens) verbraucht nur einen Bruchteil eines Cents. Der Verbrauch kann sich aber über mehrere Chats und Tage aufsummieren.

Verbrauchsvolumen und Transparenz Ihrer Nutzung[Bearbeiten | Quelltext bearbeiten]

Die allgemeine Nutzung der KI-Umgebung ist für alle Studierende und Beschäftigte frei verfügbar. Um die Nutzung von Ressourcen fair zu verteilen ist der Verbrauch pro Person auf $20 pro Monat gedeckelt. Zum Monatsbeginn wird der Verbrauch zurückgesetzt. Die Nutzung der OpenAI-Modelle wird nach Verbrauch verrechnet. Die Nutzung der GWDG-Modelle steht Ihnen pauschal ohne Verbrauchskosten zur Verfügung. Ihr Verbrauchsbudget wird Ihnen transparent im AI-Chat und AI-Gateway angezeigt. Im AI-Chat sehen Sie diesen in der obigen rechten Ecke. (Falls dies noch nicht der Fall sein sollte, laden Sie bitte Ihre Seite im Browser neu: Strg + F5):

Nutzen Sie diese Information, um Ihr Verbrauchsvolumen sinnvoll über den Monat zu verteilen. Nutzen Sie bewusst die kostenlosen GWDG-Modelle oder günstigere OpenAI-Modelle für simple Aufgaben. Weitere Tipps und Hinweise zur Kostenoptimierung finden Sie im nächsten Kapitel. Sollten Sie dennoch in begründeten Fällen temporär ein höheres Volumen für den aktuellen Monat dringend benötigen, um Ihre laufenden Arbeiten fortzuführen, können Sie Ihr Anliegen unter ki-kontakt@upb.de schildern.

Weiterhin bestehen je nach Provider und Model Beschränkungen von Anfragen pro Minute (RPM) und Tokens pro Minute (TPM). Wir möchten Ihnen die verfügbaren Ressourcen möglichst im vollen Umfang durchreichen, sind allerdings ebenfalls an diesen Limitierungen gebunden. Zusätzlich gilt je nach Model das maximale Kontext-Fenster zu beachten (Wie viel das KI-Model bei einer Anfrage maximal an Tokens/Zeichen verarbeiten kann).

Kostenfallen im Alltag / Tipps zur Kostenoptimierung[Bearbeiten | Quelltext bearbeiten]

Die Vielzahl an Optionen und Möglichkeiten im Umgang mit KI kann zu Beginn überwältigend wirken. Deshalb haben wir für Sie Basismodelle voreingestellt, damit Ihnen der Einstieg leichter und komfortabler gelingt. Langfristig sollte das Ziel jedoch sein, eigene KI-Kompetenzen aufzubauen. So können Sie fundierte Entscheidungen treffen, Ergebnisse besser bewerten und KI bewusster einsetzen.

Häufig bleiben wir bei festen Einstellungen, zum Beispiel indem wir immer dasselbe KI-Modell verwenden oder Thinking- bzw. Reasoning-Optionen nicht gezielt steuern. Ein bewusster Umgang mit diesen Möglichkeiten hilft dabei, KI effektiver und passender für die jeweilige Aufgabe zu nutzen. Dadurch können nicht nur Kosten gespart, sondern auch bessere Ergebnisse erzielt werden. Gleichzeitig lassen sich mögliche Ursachen von Problemen im Umgang mit KI besser erkennen und gezielt angehen.

A. Das KI-Model bewusst auswählen

Statt immer nur das ein Model ausgewählt zu lassen, wie z.B. das Flagship-Model von OpenAI, lohnt es sich auch andere Modelle praktisch zu testen und sich mit diesen vertraut zu machen. Für welchen Anwendungsfall sich ein Model "besser" eignet, hängt neben allgemeinen Rankings auch von den eigenen Metriken ab. Wir möchten Ihnen mit dem Artikel unter KI-Sprachmodelle eine Hilfestellung und ein Beispiel einer Einordnung geben.

Bei sehr einfachen oder fast trivialen Aufgaben oder Textgenerierungen auf ein günstiges Model wechseln, wie Mini- oder Nano-Varianten von OpenAI oder auf Modelle der GWDG wie das Flagship-Model Qwen.

B. Thinking-/Reasoning herab setzen

Bei der Verwendung von Thinking-/Reasoning-Modellen können Sie die Funktion manuell von "Niedrig" bis "Sehr Hoch" einstellen, sowie ausschalten. Schätzen Sie die Komplexität Ihrer Aufgabenstellung bei der Verwendung von Thinking-/Reasoning-Modellen ein und setzten Sie den Parameter entsprechend. Dies kann auch während des Chat-Dialogs sinnvoll sein.

Beim Thinking/Reasoning führt das KI-Model sozusagen ein Selbstgespräch, um sich selbst Kontext zu generieren, ein strukturiertes Vorgehen bei komplexen Aufgaben sicherzustellen oder auch geplante Ausgaben gegenüber Ihrer Anweisung zu validieren und ggf. noch einmal zu verbessern. Thinking-/Reasoning-Tokens zählen ebenfalls zu den generierten Output-Tokens.

C. Kontexte bewusst wählen

Nicht nur aus Kostengründen lohnt es sich bei Themenwechseln einen neuen Chat mit leerer Chat-History zu starten. Auch vermeiden neue Chats Halluzinationen zu alten Themen/Gesprächen.

D. Vermeiden Sie ...

Sehr lange Chat-Historien mitschleppen
Große Dokumente mehrfach senden. Alternativ können Sie Dokumente vorher einmal durch KI zusammenfassen lassen, die wichtigsten Punkte herausstellen und den Kontext statt das komplette Dokument senden. Außerdem können Sie Embeddings / Retrieval ("Fokussierte Abschnitte des Dokuments") nutzen statt komplette Texte immer mitzuschicken.
Automatisierte Skripte ohne Limits laufen lassen
KI anweisen Kurz-Knapp-Treffend zu formulieren, sodass „Verbose“-Antworten (z. B. „erkläre alles sehr ausführlich“) nicht unnötig oft auftreten. Oder Antworten kürzer anfordern („max. 5 Sätze“, „stichpunktartig“)

Bei Fragen oder Problemen können Sie uns zu unseren Servicezeiten telefonisch oder per E-Mail erreichen:

☎ Helpdesk: +49 5251 60-5544 • ☎ Medien: +49 5251 60-2821 • E-Mail: zim@uni-paderborn.de

Oder Sie besuchen uns vor Ort: Sie finden das Notebook-Café gemeinsam mit dem Servicecenter Medien in H1.201.

Servicezeiten

	Mo. – Do.	Fr.
Vor-Ort-Support	08:30 – 16:00 Uhr	08:30 – 14:00 Uhr
Telefonsupport	08:30 – 16:00 Uhr	08:30 – 14:00 Uhr
Servicecenter Medien	08:30 – 16:00 Uhr	08:30 – 14:00 Uhr