Samples · baseline.cold_start

Run #75 · Adapter v1.0.0 · 0/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 21:37 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) fehlerfrei bestanden. Das Modell antwortete korrekt und ohne Verzögerungsprobleme auf den minimalen Testprompt.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte, präzise Antwort ohne überschüssige Tokens ("OK" auf "Antworte nur mit OK.")

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
  • Kein numerischer TTFT-Wert in den Metriken vorhanden, sodass kein Latenz-Vergleich möglich ist

Auffälligkeiten

Keine Fehler-Muster erkennbar. Der einzige Testfall ist trivial kurz, was zwar den Best-Case abbildet, aber keine Aussage über Verhalten bei langen oder komplexen Prompts zulässt.

Empfehlung

Den Benchmark mit mindestens 10–20 Samples unterschiedlicher Prompt-Länge und -Komplexität wiederholen und dabei explizite TTFT-Messwerte (in Millisekunden) in den Metriken erfassen, um eine aussagekräftige Latenz-Baseline für das Modell `mlx-community/Qwen3-Coder-Next` zu etablieren.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 439 p95: 439 mean: 439
Tokens/s
p50: 4.6 mean: 4.6
TTFT (ms)
p50: 412 p95: 412
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 1 Samples zu sehen.
0 von 1 Samples · Limit 200 ‹ Vorherige