Samples · baseline.cold_start
KI-Auswertung
Generiert 2026-05-11 19:02 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete auf die erste Stream-Anfrage korrekt und ohne Fehler.
Stärken
- Perfekte Pass-Rate (1/1) ohne Fehler oder Fehlschläge
- Exakte, instruktionstreue Antwort ("OK") ohne überflüssige Tokens oder Abweichungen vom Format
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
- Kein konkreter Latenzwert (ms) im Report enthalten, sodass die eigentliche Kernmetrik nicht bewertet werden kann
Auffälligkeiten
Keine Failures oder Errors vorhanden. Der Prompt war bewusst minimal gehalten ("Antworte nur mit OK"), was zwar ideal für TTFT-Messung ist, aber keine Rückschlüsse auf das Verhalten bei komplexeren Anfragen erlaubt. Das Fehlen numerischer Latenzdaten im Output ist auffällig für einen Benchmark, dessen erklärtes Ziel die Messung der Time-To-First-Token ist.
Empfehlung
Den Benchmark um mindestens 5–10 Wiederholungen mit demselben minimalen Prompt erweitern und die tatsächlichen TTFT-Werte in Millisekunden im Report erfassen, um Ausreißer und Varianz des Cold-Start-Verhaltens des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.
Übersicht
1 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 508 ms | 3.9 | 464 ms | ||
|
Lade Detail …
|
|||||||