Samples · baseline.cold_start

Run #68 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 19:41 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Bei einem einzigen Testfall antwortete das Modell korrekt und ohne Fehler.

Stärken

  • Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
  • Modell liefert exakt die geforderte Ausgabe ohne Zusatztext oder Formatierungsabweichungen

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
  • Nur ein triviales Prompt getestet; komplexere Cold-Start-Szenarien bleiben unbewertet

Auffälligkeiten

Keine Muster erkennbar, da lediglich ein einziger Erfolgsfall vorliegt. Der Test prüft ausschließlich, ob überhaupt ein erster Token generiert wird, nicht die tatsächliche Latenz in Millisekunden — ein numerischer TTFT-Wert fehlt in den Metriken vollständig.

Empfehlung

Den Benchmark um mindestens 10–20 Durchläufe mit variierenden Prompt-Längen erweitern und die tatsächliche TTFT-Latenz in Millisekunden als Metrik erfassen, um aussagekräftige Aussagen über das Cold-Start-Verhalten von `mlx-community/Qwen3-Coder-Next` treffen zu können.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 411 p95: 411 mean: 411
Tokens/s
p50: 4.9 mean: 4.9
TTFT (ms)
p50: 386 p95: 386
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 411 ms 4.9 386 ms
Lade Detail …