Samples · baseline.sanity

Run #47 · Adapter v1.0.0 · 3/3 Samples angezeigt · Score 66.7%
‹ Zurück zum Run-Detail

KI-Auswertung

Keine KI-Auswertung verfügbar.

Übersicht

3 Samples
Verteilung
2
1
Score-Histogramm
0 – 0.1: 1 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 2
0.0 ────── 1.0
Latenz (ms)
p50: 3027 p95: 3888 mean: 3034
Tokens/s
p50: 63.8 mean: 63.6
Top-Fehlermuster
  • modell hat 256 tokens erzeugt, aber keinen content geliefert. bei reasoning-mode
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
sanity.0 passed 100% Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. 3027 ms 63.8
Lade Detail …
sanity.1 passed 100% Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. 2090 ms 62.7
Lade Detail …
sanity.2 error 0% Schreibe das Wort Pizza in Großbuchstaben. 3984 ms 64.3
Lade Detail …