Samples · baseline.throughput

Run #63 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 43.2%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Der erzielte Score von ~0,43 spiegelt die gemessene Token-Geschwindigkeit wider, die als moderater Wert einzustufen ist.

Stärken

  • Keine Fehler oder Failures in keiner der sechs Testinstanzen
  • Korrekte und qualitativ angemessene Antworten über alle Prompt-Längen hinweg (kurz, mittel, lang)
  • Robustheit über verschiedene Domänen: Mathematik, Geografie, Biologie, Informatik

Schwächen

  • Score von 0,432 deutet auf eine unterdurchschnittliche Token-Geschwindigkeit hin; ob dieser Wert ausreichend ist, hängt vom Ziel-SLA ab
  • Responses bei mittleren und langen Prompts (Quicksort, REST/GraphQL) wurden teilweise abgeschnitten, was auf Token-Limits oder Streaming-Abbrüche hinweist

Auffälligkeiten

Bei zwei längeren Antworten (Quicksort-Pseudocode, REST-vs-GraphQL) endet der Text mitten im Satz bzw. im Code-Block. Dies ist kein inhaltlicher Fehler im Sinne des Benchmarks, aber ein strukturelles Muster: Bei langen Outputs scheint die Antwort vorzeitig zu terminieren. Das könnte auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein.

Empfehlung

Das vorzeitige Abschneiden langer Antworten sollte untersucht werden: `max_tokens` im Benchmark-Adapter prüfen und ggf. erhöhen. Zudem sollte der Score von 0,432 gegen einen definierten Throughput-Schwellenwert (z. B. Tokens/sec-Zielwert) verglichen werden, um zu beurteilen, ob ein Wechsel auf eine leichtere Quantisierungsstufe (z. B. 4-Bit statt 8-Bit) sinnvoll ist.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 3036 p95: 17752 mean: 6033
Tokens/s
p50: 52.9 mean: 43.2
TTFT (ms)
p50: 557 p95: 603
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 919 ms 14.1 436 ms
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 816 ms 17.2 605 ms
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 2184 ms 50.8 505 ms
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 3887 ms 55.1 595 ms
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 7085 ms 59.6 579 ms
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 21308 ms 62.5 535 ms
Lade Detail …