Samples · baseline.cold_start

Run #63 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf den einzigen Testfall.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte und präzise Antwort auf die Instruktion ("OK" ohne Zusätze)

Schwächen

  • Stichprobengröße von nur einem Prompt erlaubt keine belastbare statistische Aussage
  • Der Test misst lediglich Korrektheit, nicht die tatsächliche TTFT-Latenz in Millisekunden

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Die Beschreibung des Benchmarks zielt auf Latenz (Time-To-First-Token), jedoch enthält die Auswertung keine konkreten Zeitwerte — nur ein binäres Pass/Fail-Ergebnis.

Empfehlung

Den Benchmark um quantitative Latenz-Metriken (TTFT in ms, Perzentile p50/p95) sowie eine größere Anzahl von Prompts unterschiedlicher Länge und Komplexität erweitern, um belastbare Aussagen über das tatsächliche Cold-Start-Verhalten des Modells treffen zu können.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 489 p95: 489 mean: 489
Tokens/s
p50: 4.1 mean: 4.1
TTFT (ms)
p50: 463 p95: 463
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 489 ms 4.1 463 ms
Lade Detail …