Samples · baseline.throughput

Run #68 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 48.5%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 19:42 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der Score von 0,485 deutet auf eine moderate Inferenzgeschwindigkeit hin, die unter dem angestrebten Referenzwert liegt.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures über alle sechs Prompts
  • Korrekte und inhaltlich solide Antworten bei allen Prompt-Typen (kurz, mittel, lang)
  • Stabile Ausgaben auch beim komplexesten Prompt (Quicksort-Pseudocode mit Erklärungen)

Schwächen

  • Score von ~0,485 signalisiert, dass die Tokens/sec nur knapp unter der Hälfte des Benchmark-Maximums liegen
  • Beim langen Quicksort-Prompt wurde die Antwort offenbar abgeschnitten (Pseudocode endet mitten im Satz), was auf ein Token-Limit oder Streaming-Problem hindeutet

Auffälligkeiten

Die abgeschnittene Quicksort-Antwort ist auffällig: Der Pseudocode bricht im Kommentar-Abschnitt der Partition-Funktion ab. Dies könnte auf eine zu niedrig gesetzte `max_tokens`-Grenze oder einen Streaming-Abbruch bei langen Outputs hinweisen. Alle anderen Antworten sind vollständig. Kein Muster bei bestimmten Sprachen oder Prompt-Stilen erkennbar.

Empfehlung

Den `max_tokens`-Parameter für den langen Prompt-Slot erhöhen und prüfen, ob der Streaming-Buffer bei längeren Ausgaben korrekt flusht. Zudem sollte die Rohzahl der Tokens/sec protokolliert werden, um den Score von 0,485 besser einordnen und gegebenenfalls Quantisierungsstufe oder Batch-Größe anpassen zu können.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 2489 p95: 16634 mean: 5492
Tokens/s
p50: 57.1 mean: 48.5
TTFT (ms)
p50: 426 p95: 504
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 615 ms 21.1 436 ms
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 645 ms 24.8 419 ms
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 2054 ms 55 417 ms
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 2924 ms 59.2 418 ms
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 6801 ms 64.3 433 ms
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 19912 ms 66.5 527 ms
Lade Detail …