Samples · baseline.sanity
Run #49 · Adapter v1.0.0 · 3/3 Samples angezeigt
· Score 66.7%
KI-Auswertung
Keine KI-Auswertung verfügbar.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 1692
p95: 1941
mean: 1549
Tokens/s
p50: 129.4
mean: 127.8
Top-Fehlermuster
-
1×
modell hat 256 tokens erzeugt, aber keinen content geliefert. bei reasoning-mode
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.0 | passed | Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. | 1692 ms | 129.4 | — | ||
|
Lade Detail …
|
|||||||
| sanity.1 | passed | Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. | 985 ms | 123.9 | — | ||
|
Lade Detail …
|
|||||||
| sanity.2 | error | Schreibe das Wort Pizza in Großbuchstaben. | 1969 ms | 130 | — | ||
|
Lade Detail …
|
|||||||