Case Study

Wie wir selbst mit Coding Agents bauen

Wir verkaufen nicht nur KI-Rollouts — wir betreiben unsere eigene Entwicklung mit Agenten. Kein Pitch, sondern unser echter Alltag: Wie ein Feature von der Idee bis zum Merge Request läuft, welche Zahlen sich verändert haben — und wo die ehrlichen Grenzen liegen.

Drei Kennzahlen — und die halbe Wahrheit

2,75×

Commits / Monat

3×

Merge Requests / Monat

2,1×

Releases / Monat

Ø Feb–Okt 2025 vs. Mär–Mai 2026 · ~1,2–1,3× davon durch Team-Wachstum

Warum diese Zahlen nur die halbe Wahrheit sind

Commits, MRs und Releases sind bequeme, aber schwache Maße — mehr Codezeilen heißt nicht mehr Wert. Der eigentliche Wandel ist nicht „schneller tippen", sondern dass sich der gesamte Entwicklungsprozess verschiebt: Er beginnt früher (Tickets werden zu Prompts) und endet später (Agenten verifizieren, refactoren, dokumentieren). Wir zeigen die Zahlen, weil sie real sind — aber der Hebel sitzt im Prozess, nicht in der Statistik.

Der Loop hinter jedem Feature

Jedes Feature läuft denselben Weg — am Beispiel eines echten Tickets („Screenshot im Chat aufnehmen"): von der Idee bis zum fertigen Merge Request.

Kontext

Linear-Ticket via MCP, Branch automatisch

Plan

kontext-optimiert, aus AGENTS.md abgeleitet

Bauen

Code + Übersetzungen + Changelog

Verifizieren

Typecheck, Lint, Browser-E2E, Self-Review

Merge Request

Knip, glab, CodeRabbit-Review

Das reine Implementieren des Beispiel-Features dauerte rund drei Minuten — inklusive automatischer Übersetzung in vier Sprachen und einem fertigen Changelog-Fragment. Die Arbeit verschiebt sich von „Code schreiben" zu „Kontext geben und Ergebnisse prüfen".

Abrufen · Handeln · Verifizieren — in der Praxis

Unser Setup ist nichts anderes als das Agenten-Dreieck in Reinform — jede Spitze hat ihre Werkzeuge:

Abrufen

Linear, Sentry, Context7, Codebase via MCP

Handeln

Code, Branches, MRs, Tickets — autonom

Verifizieren

Tests, Browser-Agent, /review, CodeRabbit

Die dritte Spitze ist die, die fast alle vergessen — und die wir am ernstesten nehmen: Der Agent startet selbst einen Browser, klickt sich wie ein Nutzer durch das neue Feature und prüft Ende-zu-Ende, ob es wirklich funktioniert. Kein Mensch muss den ersten Klick machen.

Der Stack dahinter

Live-Kontext: mehrere MCP-Server an Claude Code — Linear (Tickets), Sentry (Errors → Fix), Context7 (aktuelle Doku).
Eine Quelle der Wahrheit: eine AGENTS.md, die alle Coding-Agents teilen; CLAUDE.md referenziert sie nur.
Schnelle Werkzeuge: Wechsel von ESLint zu Oxlint brachte den Pre-Commit-Check von ~1 Minute auf ~3 Sekunden — bei jedem der vielen täglichen Agent-Läufe ein echter Hebel.
Sauber halten: Knip filtert ungenutzten Code/Exports raus, damit KI-Code keine technische Schuld wird.
Zwei Köpfe: Codex für Architektur, Backend & Security; Claude für Frontend, UX & Tool-Calling — ein Agent dirigiert beide und führt zusammen.
Letzter Torwart: CodeRabbit reviewt jeden MR automatisch, fängt Bugs und setzt Guardrails durch (Stil, erlaubte Libraries, geschützte Ordner).

Die Rolle verschiebt sich: weg vom Tippen jeder Zeile, hin zum Koordinieren — Ziel halten, Aufgaben verteilen, Ergebnisse prüfen, zusammenführen.

meinGPT · internes Coding-Setup

Was das für dich heißt

Coding war die erste Domäne, in der Agenten vom Berater zum Macher wurden — weil sie deterministisch prüfbar und reversibel ist. Genau dieselbe Schleife übertragen wir gerade auf das ganze Unternehmen: das agentische Unternehmen. Und wo sich wiederkehrende Arbeit in Agenten und Workflows gießen lässt, zeigt die Automatisierung.