Samples · baseline.throughput

Run #49 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Keine KI-Auswertung verfügbar.

Übersicht

6 Samples
Verteilung
5
1
Score-Histogramm
0 – 0.1: 1 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 5
0.0 ────── 1.0
Latenz (ms)
p50: 3669 p95: 11602 mean: 4904
Tokens/s
p50: 133.4 mean: 132.1
Top-Fehlermuster
  • modell hat 512 tokens erzeugt, aber keinen content geliefert. bei reasoning-mode
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 error 0% Was ist 7 mal 8? 3827 ms 133.8
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 1344 ms 127.2
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 2048 ms 130.9
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 3511 ms 133
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 4839 ms 134.1
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 13856 ms 133.8
Lade Detail …