Modelle und Tools: Stärken, Schwächen, Einsatzgebiete
Serie: KI in der Softwareentwicklung
Teil 4 von 7 — Modelle und Tools: Stärken, Schwächen, Einsatzgebiete
Wer KI-Tools in der Softwareentwicklung nutzt, steht vor einer unübersichtlichen Landschaft: Claude, ChatGPT, Copilot, Cursor, Windsurf — jedes Tool verspricht, dich produktiver zu machen. Nach über einem Jahr täglichem Einsatz in echten Projekten kann ich sagen: Jedes hat seinen Platz, aber keines kann alles. Hier mein ehrlicher Vergleich ohne Marketing-Sprech.
Claude — der Architekt
Claude von Anthropic ist mein Hauptwerkzeug für alles, was mit Architektur, Refactoring und komplexen Codebasen zu tun hat. Wenn ich eine bestehende Klasse umstrukturieren muss, eine neue Schicht in die Architektur einziehen will oder verstehen muss, wie 15 Klassen zusammenspielen, ist Claude die erste Wahl. Das Modell versteht Zusammenhänge zwischen Dateien und hält sich bemerkenswert gut an vorgegebene Regeln und Constraints.
Die Stärke zeigt sich besonders bei Backend-Code und technischen Entscheidungen. Frag Claude, ob du hier ein Strategy-Pattern brauchst oder ob eine einfache Switch-Anweisung reicht, und du bekommst eine differenzierte Antwort mit konkreter Begründung — keine generische Pattern-Empfehlung aus dem Lehrbuch, sondern eine Abwägung, die deinen konkreten Fall berücksichtigt. Claude neigt auch weniger dazu, Code „aufzuhübschen“, wenn du das nicht verlangst — eine Eigenschaft, die ich bei täglicher Nutzung sehr schätze.
Die Schwäche: Bei UI- und Frontend-Code ist Claude nicht so stark wie bei Backend. CSS-Layouts, JavaScript-Animationen, komplexe DOM-Manipulationen — hier gibt es bessere Optionen. Außerdem kann Claude manchmal übervorsichtig sein: Es weist auf potenzielle Probleme hin, die in deinem Kontext irrelevant sind, und fügt Sicherheitschecks ein, die du nicht brauchst. Das ist leichter zu korrigieren als das Gegenteil, aber es kostet trotzdem Review-Zeit.
Was mich überzeugt hat, ist die Fähigkeit, lange Konversationen konsistent durchzuhalten. Wenn du in einer Session fünf zusammenhängende Klassen entwickelst, vergisst Claude nicht, was in der ersten passiert ist. Bei anderen Modellen habe ich das oft erlebt — Klasse drei widerspricht plötzlich dem Design von Klasse eins, und du fängst an, die KI an ihre eigenen Entscheidungen zu erinnern.
ChatGPT — der Generalist
ChatGPT von OpenAI ist der schnelle Allrounder. Für eine kurze Frage zwischendurch — „Wie war nochmal die Syntax für einen MySQL-JSON-Path-Query?“ — ist ChatGPT perfekt. Schnelle Antwort, meistens korrekt, kein Setup nötig. Auch fürs Brainstorming eignet es sich gut: „Gib mir fünf Ansätze, wie ich diese API-Rate-Limits elegant behandeln kann“ liefert brauchbare Denkanstöße, die du als Ausgangspunkt für deine eigene Lösung nehmen kannst.
Die Schwäche von ChatGPT zeigt sich bei präziser Codegenerierung in komplexen Kontexten. Das Modell neigt dazu, APIs zu erfinden, die nicht existieren. Besonders bei Framework-spezifischem Code — Shopware, Symfony, WordPress — habe ich schon Methoden erhalten, die kein einziges Google-Ergebnis liefern, weil sie frei erfunden sind. Das kompiliert, sieht plausibel aus und funktioniert trotzdem nicht. Dieses Phänomen nennt man Halluzination, und ChatGPT ist dafür anfälliger als Claude.
Für Dokumentation und Erklärungen ist ChatGPT stark. Wenn du jemandem ein Konzept erklären musst, kann ChatGPT dir einen guten Erstentwurf liefern. Für produktionsreifen Code in echten Projekten verlasse ich mich nicht allein darauf. Als Ergänzung zum Nachdenken ja, als primäres Code-Tool eher nicht.
GitHub Copilot — der Zeilenschreiber
Copilot lebt in deiner IDE und vervollständigt Code, während du tippst. Für Boilerplate und repetitive Patterns ist das Gold wert. Getter/Setter, Test-Scaffolding, CRUD-Methoden — Copilot erkennt das Pattern und schlägt die nächsten Zeilen vor. Statt zehn identische Testmethoden zu tippen, schreibst du zwei, und Copilot versteht das Schema. Das spart nicht nur Tipparbeit, sondern auch den mentalen Leerlauf bei mechanischer Codierung.
Die Grenze zeigt sich beim Projektkontext. Copilot sieht primär die aktuelle Datei und ein paar geöffnete Tabs. Es kennt deine Architektur nicht, deine Coding-Rules nicht, dein Domain-Modell nicht. Der vorgeschlagene Code kompiliert oft, passt aber architektonisch nicht ins Projekt. Ein Copilot-Vorschlag, der gegen deine PHPStan-Level-9-Regeln verstößt, kostet dich mehr Zeit als er spart — weil du den Fehler erst bei der nächsten Analyse siehst und dann debuggen musst, warum PHPStan plötzlich rot ist.
Mein Workflow: Copilot für die offensichtlichen Zeilen akzeptieren, für alles andere ignorieren. Die Tab-Taste ist dein Freund — aber nur, wenn du den Vorschlag gelesen und für richtig befunden hast. Blind akzeptieren ist der schnellste Weg zu subtilen Bugs, die sich in der Masse der automatisch generierten Zeilen verstecken.
Cursor, Windsurf und Co. — der Kontext-Vorteil
Die neuere Generation von KI-IDEs wie Cursor und Windsurf geht einen Schritt weiter als Copilot: Sie indizieren dein gesamtes Projekt und verstehen Zusammenhänge über Dateigrenzen hinweg. Wenn du in einer Controller-Klasse arbeitest, kennt das Tool den zugehörigen Service, das Repository, die Entity und die Tests. Das ist ein echter Vorteil bei großen Projekten, in denen eine Änderung an einer Stelle Auswirkungen auf fünf andere Dateien hat.
Der Nachteil: Diese Tools sind relativ neu und noch nicht so ausgereift wie die einzelnen Modelle direkt. Die IDE-Integration kann hakelig sein, die Indizierung dauert bei großen Codebasen spürbar lange, und manchmal ist der Overhead des Tools größer als der Zeitgewinn. Für kleinere Projekte mit fünf bis zehn Dateien lohnt sich der Umstieg kaum. Für ein Shopware-Plugin mit 80 Klassen sieht das anders aus — dort spielt der Projektkontext seine Stärke voll aus.
CLI-Tools — die unterschätzte Kategorie
Neben den IDE-basierten Tools gibt es CLI-Werkzeuge wie Claude Code, Aider oder Continue, die direkt im Terminal arbeiten. Der Vorteil: Sie integrieren sich nahtlos in bestehende Workflows mit Git, Composer und Build-Tools. Du bleibst in deiner gewohnten Umgebung und fügst KI-Unterstützung als weiteres Werkzeug hinzu, statt deine gesamte Arbeitsweise umzustellen.
CLI-Tools haben einen entscheidenden Vorteil bei der Automatisierung. Du kannst sie in Skripte einbinden, mit Pre-Commit-Hooks kombinieren oder als Teil einer CI/CD-Pipeline nutzen. Ein KI-gestützter Code-Review als Teil deines Git-Workflows ist mit einem CLI-Tool deutlich einfacher umzusetzen als mit einer GUI-basierten Lösung. Der Nachteil: Die Lernkurve ist steiler, und du brauchst Erfahrung mit der Kommandozeile. Für Entwickler, die ohnehin viel im Terminal arbeiten, fühlt sich das natürlich an. Für alle anderen kann es abschreckend wirken.
Die Toolwahl ist persönlich
Es gibt kein objektiv bestes Tool. Die Wahl hängt von deinem Stack, deinem Workflow und deinen Präferenzen ab. Ein Frontend-Entwickler, der den ganzen Tag in VS Code arbeitet, profitiert von Copilot anders als ein Backend-Entwickler, der zwischen Terminal, IDE und Browser wechselt. Probier verschiedene Tools aus, gib jedem mindestens zwei Wochen — und entscheide dann basierend auf deiner tatsächlichen Produktivität, nicht auf dem Feature-Vergleich auf der Marketing-Seite.
Die ehrliche Wahrheit über alle Modelle
Kein Modell ist zuverlässig für sicherheitskritischen Code. Das muss man so klar sagen. Alle Modelle halluzinieren — sie erfinden Funktionen, die es nicht gibt, verwechseln Framework-Versionen, und erzeugen Code, der auf den ersten Blick korrekt aussieht, aber einen subtilen Fehler enthält. Das ist kein Bug, den ein Update behebt, das ist ein fundamentales Merkmal der Technologie. Sprachmodelle generieren statistisch wahrscheinlichen Text — und statistisch wahrscheinlich ist nicht dasselbe wie korrekt.
Alle Modelle brauchen Review. Ausnahmslos. Der Output von Claude muss genauso geprüft werden wie der von ChatGPT oder Copilot. Das beste Modell ist nicht das technisch fortschrittlichste — es ist das, dessen Output du gut genug verstehst, um ihn beurteilen zu können. Wenn du PHP-Entwickler bist und Claude dir Rust-Code generiert, kannst du die Qualität nicht bewerten. Dann ist der Code wertlos, egal wie gut er theoretisch ist. Nutze KI für die Sprachen und Frameworks, in denen du zuhause bist — nicht für die, die du gerade lernen willst.
Mein persönlicher Stack: Claude für Architektur und komplexe Aufgaben, ChatGPT für schnelle Fragen und Brainstorming, Copilot für Inline-Completion beim Tippen. Nicht weil das objektiv die beste Kombination ist, sondern weil ich damit die besten Ergebnisse erziele. Dein Stack wird anders aussehen — und das ist völlig in Ordnung, solange du die Grenzen jedes Tools kennst und keinem davon blind vertraust.
Ein letzter Gedanke: Die Modelllandschaft verändert sich schnell. Was heute gilt, kann in sechs Monaten überholt sein. Neue Modelle kommen raus, bestehende werden verbessert, Features werden hinzugefügt. Binde dich nicht zu stark an ein einzelnes Tool. Verstehe stattdessen die Prinzipien — Kontextmanagement, Prompt-Qualität, Review-Disziplin — die unabhängig vom Modell gelten. Die Werkzeuge wechseln, das Handwerk bleibt.
Und ein Rat, den ich gerne früher bekommen hätte: Protokolliere deine Erfahrungen. Schreib dir auf, welches Tool bei welcher Aufgabe gut funktioniert hat und wo es versagt hat. Nach ein paar Wochen hast du eine belastbare Datenbasis für deine persönliche Tool-Wahl — nicht basierend auf Blogposts und Twitter-Threads, sondern auf deiner eigenen Praxis mit deinem eigenen Stack. Dein Workflow ist einzigartig, und nur deine eigenen Daten können dir sagen, was wirklich funktioniert.
Die Kosten der verschiedenen Modelle sollte man ebenfalls im Blick behalten. Ein teures Modell, das beim ersten Versuch das richtige Ergebnis liefert, ist günstiger als ein billiges, das drei Iterationen braucht. Rechne nicht pro Token, rechne pro gelöstes Problem. Dann sieht die Kostenstruktur oft anders aus, als die Preistabellen der Anbieter vermuten lassen.
Deine Zeit ist teurer als die Token — und jede Korrekturschleife kostet beides. Investiere in das Tool, das für deinen konkreten Anwendungsfall die wenigsten Iterationen braucht, nicht in das mit dem niedrigsten Preis pro Token.
Alle Teile dieser Serie
Teil 1: Projekt vorbereiten — Dateien, Struktur, Kontext
Teil 2: Gute Regeln schreiben — der KI Grenzen setzen
Teil 3: Saubere Prompts — präzise formulieren, Token sparen
Teil 4: Modelle und Tools — Stärken, Schwächen, Einsatzgebiete
Teil 5: Sicherheit — was nicht in den Prompt gehört
Teil 6: Reviews — warum der Mensch das letzte Wort haben muss
Teil 7: Wann KI nicht nutzen — die Grenzen kennen
Glossar: Begriffe für Entwickler