Samples · baseline.sanity
Run #46 · Adapter v1.0.0 · 3/3 Samples angezeigt
· Score 66.7%
KI-Auswertung
Keine KI-Auswertung verfügbar.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 3872
p95: 3976
mean: 3202
Tokens/s
p50: 64
mean: 63.4
Top-Fehlermuster
-
1×
modell hat 256 tokens erzeugt, aber keinen content geliefert. bei reasoning-mode
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.0 | error | Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. | 3988 ms | 64.2 | — | ||
|
Lade Detail …
|
|||||||
| sanity.1 | passed | Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. | 1746 ms | 61.9 | — | ||
|
Lade Detail …
|
|||||||
| sanity.2 | passed | Schreibe das Wort Pizza in Großbuchstaben. | 3872 ms | 64 | — | ||
|
Lade Detail …
|
|||||||