Run #52
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
KI-Bewertung anzeigen
Zusammenfassung
Der Cold-Start-TTFT-Test wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf die einzige Testanfrage.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte und minimale Antwort auf eine eindeutige Instruktion ("OK" auf "Antworte nur mit OK")
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
- Kein Score-Wert vorhanden, sodass keine quantitative Latenz-Messung ausgewertet werden kann
Auffälligkeiten
Keine Muster in Failures erkennbar, da ausschließlich ein Success vorliegt. Der Test deckt nur den trivialsten Fall ab (einsilbige Antwort auf eine eindeutige Kurzanweisung) und gibt keinen Aufschluss über Verhalten bei komplexeren Prompts oder langen Outputs.
Empfehlung
Den Cold-Start-Benchmark um mehrere Wiederholungen und unterschiedliche Prompt-Typen erweitern (z. B. längere Antworten, mehrsprachige Eingaben), um belastbare TTFT-Werte zu ermitteln. Zudem sollte der `score`-Wert mit einer tatsächlichen Zeitstempel-Messung befüllt werden, damit Latenz-Vergleiche zwischen Modellen oder Quantisierungsstufen möglich sind.
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
KI-Bewertung anzeigen
Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell llama3.2-vision:latest antwortet auf triviale Fragen korrekt und instruktionskonform.
Stärken
- Perfekte Trefferquote ohne Fehler oder Aussetzer
- Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
- Keine technischen Fehler oder leere Antworten
Schwächen
- Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu einfach, um Modellgrenzen aufzuzeigen
Auffälligkeiten
Keine negativen Muster erkennbar. Alle drei Antworten sind minimal und exakt, was auf gute Instruction-Following-Fähigkeiten bei kurzen, klaren Prompts hinweist.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks (z. B. mehrschrittige Reasoning-Aufgaben, lange Kontexte oder mehrsprachige Prompts) sollten als nächstes evaluiert werden, um tatsächliche Schwachstellen des Modells zu identifizieren.
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
KI-Bewertung anzeigen
Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % und einem Score von 0,931 vollständig bestanden. Das Modell llama3.2-vision liefert unter realistischer Last solide Ergebnisse ohne Fehler oder Ausfälle.
Stärken
- Vollständige Fehlerfreiheit: 0 Errors, 0 Failures bei allen 6 Prompts
- Konsistente Qualität über alle Prompt-Längen hinweg (kurz, mittel, lang)
- Korrekte und strukturierte Antworten auf fachliche Fragen (Quicksort, REST vs. GraphQL)
Schwächen
- Score von 0,931 liegt leicht unter dem Optimum, was auf marginale Throughput-Einbußen hindeutet
- Lange Antworten (Quicksort-Pseudocode) wurden nicht vollständig abgeschlossen — die Erklärung bricht mitten im Satz ab
Auffälligkeiten
Bei der Quicksort-Antwort endet der Text abrupt bei „Tausche", was auf ein Truncation-Problem bei längeren Outputs hinweist. Dies könnte auf ein zu niedriges `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein und verfälscht möglicherweise den Throughput-Score nach unten.
Empfehlung
Das `max_tokens`-Limit für lange Prompts im Benchmark-Setup prüfen und ggf. anheben, um Truncation bei komplexen Antworten zu vermeiden. Anschließend den Throughput-Score erneut messen, um zu klären, ob das leichte Defizit von 0,069 gegenüber dem Maximum auf dieses Problem oder auf echte Latenz-Engpässe zurückzuführen ist.
Kann das Modell echte Bugs in echten Codebasen fixen?
KI-Bewertung anzeigen
Zusammenfassung
Das Modell llama3.2-vision hat beim SWE-bench Lite vollständig versagt: Es gibt weder erfolgreiche noch fehlgeschlagene Patch-Anwendungen, sondern ausschließlich Errors, sodass keine Pass-Rate berechnet werden kann.
Stärken
- Keine erkennbaren Stärken identifizierbar, da kein einziger Test abgeschlossen wurde.
Schwächen
- Das Modell produziert durchgängig nicht-anwendbare Patches, die den `patch_apply`-Schritt scheitern lassen.
- Wiederholte Idle-Timeouts deuten auf zu langsame Inferenz oder fehlende Kapazität für komplexe Code-Prompts hin.
Auffälligkeiten
Zwei klar unterscheidbare Fehlermuster dominieren: Erstens tritt `patch_apply_failed` in 7 von 10 Fällen auf, was darauf hindeutet, dass das Modell syntaktisch oder strukturell invalide Diffs erzeugt, die nicht auf den Ziel-Code angewendet werden können. Zweitens kommt es in 3 von 10 Fällen zu Idle-Timeouts gegenüber dem Inference-Endpunkt, was auf Überlastung oder zu lange Generierungszeiten schließen lässt. Es gibt keine einzige erfolgreiche Antwort, was auf eine grundsätzliche Inkompatibilität des Modells mit dem Aufgabenformat hindeutet.
Empfehlung
llama3.2-vision sollte für SWE-bench nicht weiter evaluiert werden. Das Modell ist primär auf visuelle Aufgaben ausgelegt und nicht auf strukturierte Code-Patch-Generierung. Stattdessen sollte ein dediziertes Code-Modell (z.B. llama3-instruct oder eine Code-Llama-Variante) getestet werden. Zusätzlich sollte der Inference-Server auf Timeout-Konfiguration und Ressourcenverfügbarkeit geprüft werden.
Live-View
KI-Bewertung
Generiert 2026-05-11 15:57 · claude-sonnet-4-6Gesamteindruck
llama3.2-vision meistert einfache Instruction-Following-Aufgaben und Durchsatztests ohne Probleme, scheitert jedoch vollständig an komplexen Code-Repair-Aufgaben. Das Modell ist erkennbar auf visuelle und sprachliche Basisaufgaben ausgerichtet, nicht auf strukturierte Softwareentwicklung.
Stärken
- Zuverlässiges Instruction-Following bei kurzen, klar definierten Prompts
- Stabile Throughput-Performance ohne technische Ausfälle
- Korrekte Formatierung und minimale Antworten bei Sanity-Tests
Schwächen
- Vollständiges Versagen bei SWE-bench Lite: keine einzige erfolgreiche Patch-Generierung
- Erzeugt syntaktisch invalide Diffs, die nicht auf Zielcode anwendbar sind
- Truncation-Probleme bei langen Outputs deuten auf Limitierungen bei komplexen Generierungsaufgaben hin
- Idle-Timeouts bei komplexen Code-Prompts weisen auf Kapazitaets- oder Inferenzengpaesse hin
Empfehlung
llama3.2-vision nur fuer visuelle und einfache Sprachaufgaben einsetzen und fuer Code-bezogene Anwendungsfaelle durch ein dediziertes Code-Modell (z.B. CodeLlama oder llama3-instruct) ersetzen.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
Keine Sub-Benchmarks im "good"-Bereich.
Schwächen
Keine Sub-Benchmarks im "poor"-Bereich.
Telemetrie
Snapshots
{
"name": "SWE-Bench-Quick",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "baseline",
"sub_benchmarks": [
"cold_start",
"throughput",
"sanity"
],
"threshold_override": null
},
{
"adapter_key": "swe_bench",
"sub_benchmarks": [
"swe_bench_lite"
],
"threshold_override": null,
"params": {
"swe_bench_preset": "lite_smoke"
}
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "llama3.2-vision:latest",
"quantization": "unknown",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
{
"name": "Ollama",
"type": "ollama",
"endpoint_url": "http://100.64.0.4:11434/",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
[
{
"name": "kim",
"hostname": "100.64.0.4",
"gpu_description": "RTX 5080 16GB",
"cpu": "Ryzen 9800 X3D",
"ram": "64GB DDR5",
"storage": "1TB+4TB SSD",
"network": null,
"notes": null
}
]
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-11T15:35:13+02:00"
}