Samples · baseline.sanity
Run #49 · Adapter v1.0.0 · 1/3 Samples angezeigt
· Score 66.7%
KI-Auswertung
Keine KI-Auswertung verfügbar.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 1692
p95: 1941
mean: 1549
Tokens/s
p50: 129.4
mean: 127.8
Top-Fehlermuster
-
1×
modell hat 256 tokens erzeugt, aber keinen content geliefert. bei reasoning-mode
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.2 | error | Schreibe das Wort Pizza in Großbuchstaben. | 1969 ms | 130 | — | ||
|
Lade Detail …
|
|||||||
1 von 3 Samples · Limit 200
Nächste ›