Samples · baseline.sanity
Run #47 · Adapter v1.0.0 · 3/3 Samples angezeigt
· Score 66.7%
KI-Auswertung
Keine KI-Auswertung verfügbar.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 3027
p95: 3888
mean: 3034
Tokens/s
p50: 63.8
mean: 63.6
Top-Fehlermuster
-
1×
modell hat 256 tokens erzeugt, aber keinen content geliefert. bei reasoning-mode
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.0 | passed | Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. | 3027 ms | 63.8 | — | ||
|
Lade Detail …
|
|||||||
| sanity.1 | passed | Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. | 2090 ms | 62.7 | — | ||
|
Lade Detail …
|
|||||||
| sanity.2 | error | Schreibe das Wort Pizza in Großbuchstaben. | 3984 ms | 64.3 | — | ||
|
Lade Detail …
|
|||||||