Samples · baseline.cold_start
Run #68 · Adapter v1.0.0 · 1/1 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-12 19:41 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Bei einem einzigen Testfall antwortete das Modell korrekt und ohne Fehler.
Stärken
- Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
- Modell liefert exakt die geforderte Ausgabe ohne Zusatztext oder Formatierungsabweichungen
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
- Nur ein triviales Prompt getestet; komplexere Cold-Start-Szenarien bleiben unbewertet
Auffälligkeiten
Keine Muster erkennbar, da lediglich ein einziger Erfolgsfall vorliegt. Der Test prüft ausschließlich, ob überhaupt ein erster Token generiert wird, nicht die tatsächliche Latenz in Millisekunden — ein numerischer TTFT-Wert fehlt in den Metriken vollständig.
Empfehlung
Den Benchmark um mindestens 10–20 Durchläufe mit variierenden Prompt-Längen erweitern und die tatsächliche TTFT-Latenz in Millisekunden als Metrik erfassen, um aussagekräftige Aussagen über das Cold-Start-Verhalten von `mlx-community/Qwen3-Coder-Next` treffen zu können.
Übersicht
1 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 411
p95: 411
mean: 411
Tokens/s
p50: 4.9
mean: 4.9
TTFT (ms)
p50: 386
p95: 386
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 411 ms | 4.9 | 386 ms | ||
|
Lade Detail …
|
|||||||