Hatte am Sonntag ein interessantes Gespräch. Ein Satz ist hängengeblieben. Fokus ist der neue Engpass, seit LLMs gut geworden sind. Nicht Code schreiben. Nicht Bugs fixen. Orchestrierung kontrollieren. Ab einer bestimmten Agent-Anzahl sinkt die Output-Qualität, und die Arbeit verlagert sich vom Tippen zum Entscheiden, welcher Agent läuft, mit welchem Kontext, gegen welche Checks. Das neue Skillset ist Fokus, Kontextmanagement und QA. Nach einem Jahr mit echten Kunden-Engagements, in denen die meiste Tastaturzeit jetzt Agent-Supervision ist, stimme ich zu.
Dieser Post handelt davon, warum die Decke existiert, wie sie in der Praxis aussieht und wie wir bei echten Wavect-Builds die Agent-Anzahl unter der Decke halten.
Baust du mit KI-Agenten?
Kostenloses Erstgespräch buchenFür den Großteil der Software-Geschichte war der Engpass Durchsatz. Wie schnell ein Senior-Engineer eine Spec in funktionierenden Code verwandeln kann. Tools wurden danach gemessen, wie viel sie aus diesem Loop entfernen. Autocomplete, Snippets, IDE-Refactoring, dann Copilot, dann volle Coding-Agents.
2026 ist dieser Loop für alles außer die härtesten 10 % der Arbeit größtenteils weg. Ein kompetenter Operator, der einen Coding-Agent betreibt, kann an einem Tag mehr Code produzieren als ein Dreierteam vor wenigen Jahren. Der Constraint hat sich verschoben.
Der neue Constraint ist nicht "kann der Agent den Code schreiben". Er ist "habe ich noch genug Aufmerksamkeit übrig, um zu verifizieren, was der Agent produziert hat, die nächste Aufgabe an den richtigen Agent zu routen und das Kontextfenster jedes Agents sauber genug zu halten, dass der Output ehrlich bleibt". Das ist ein Fokus-Problem, kein Tipp-Problem.
Jeder, der mehr als zwei Agenten parallel betrieben hat, kennt diesen Moment. Agent A produziert Code, der okay aussieht. Agent B produziert ein Refactoring, das mit Agent A kollidiert. Agent C schlägt einen Test vor, der keines von beiden fängt. Du verbringst mehr Zeit damit, sie zu versöhnen, als du durch Parallelisierung gespart hast. Du fügst einen vierten Agent hinzu, um die Konflikte zu triagieren. Er führt neue ein.
Das ist die Decke. Es ist keine harte Zahl. Sie bewegt sich anhand von drei Variablen.
Aus Engagements, in denen wir mehr als zwei Coding-Agents parallel betrieben haben, clustern die Failure-Modes in sieben Kategorien. Reihenfolge nach Häufigkeit.
Wenn der Tipp-Loop größtenteils automatisiert ist, ist der Engpass die Aufmerksamkeit des Operators. Drei Skills entscheiden, ob der Operator skaliert oder steckenbleibt.
1. Fokus-Disziplin. Zu wissen, wie viele Agenten du ohne Qualitätsverlust überwachen kannst. Diese Zahl als harten Constraint zu behandeln, nicht als Ziel zum Übertreffen. Die meisten Operatoren, die wir eingestellt haben, treffen ihre Decke bei drei gleichzeitigen Agenten. Wenige sitzen komfortabel bei fünf. Niemanden haben wir bei zehn ohne Qualitätsverlust gesehen.
2. Kontext-Management. Zu wissen, wann ein Agent zurückzusetzen ist, wann eine lange Konversation zu summarisieren ist, wann ein frischer Kontext für dieselbe Aufgabe gespawnt wird und wann History zu behalten ist. Das ist der Teil des Jobs, der vor drei Jahren nicht existierte. Das MCP-Ökosystem beginnt, strukturierte Kontext-Handoffs auszuliefern, was hilft, aber der Operator muss immer noch wählen, was zu behalten ist.
3. Quality-Assurance-Design. Wenn der Operator nicht jeden Output lesen kann, muss es die Eval-Suite tun. QA hört auf, eine Phase zu sein, und wird zum Loop. Tests, Snapshot-Checks, Regressions-Suites, Behavioral Evals, Smoke-Runs nach jedem Agent-Commit. Je mehr Agenten du betreibst, desto mehr trägt dein QA-Stack das Gewicht.

"Die Decke ist kein Tool-Problem. Sie ist ein Aufmerksamkeits-Problem. Einen besseren Agenten zu kaufen hebt sie nicht. In Evals zu investieren schon."
Bei jedem KI-Engagement, das wir bei Wavect betreiben, wird das Operator-zu-Agent-Verhältnis vorab festgelegt und wöchentlich angepasst. Die Regeln, zu denen wir immer wieder zurückkommen.
Nichts davon ist bahnbrechend. Es spiegelt, wie Teams ohne KI arbeiten. Das Interessante ist, dass es jetzt auf eine einzelne Person zutrifft, die einen Schwarm von Agenten betreibt.
Es verschiebt die Einstellungslatte. Der wertvollste Engineer 2026 ist nicht der schnellste Tipper. Es ist der, der fünf Agenten produktiv halten kann, ohne dass deren Output-Qualität driftet. Das ist eine Fokus-Disziplin, eine Kontext-Management-Disziplin und eine QA-Disziplin in einem. Jedes davon können wir trainieren. Was wir nicht voll trainieren können, ist die Fähigkeit zu merken, dass ein Agent angefangen hat zu lügen, was er gemacht hat. Dieser Teil kommt aus Erfahrung.
Das ist auch, warum sich die Fractional-CTO-Rolle ändert. Vor wenigen Jahren war der Wert technisches Urteil und Liefergeschwindigkeit. Heute ist die Hälfte des Werts, die Agent-Supervisions-Kapazität eines frühen Teams zu kalibrieren und das Eval-Gerüst zu bauen, das diese Kapazität sicher skalieren lässt. Wir sehen das in fast jedem KI-lastigen Engagement.
Heißt das, kleine Teams schlagen große Teams jetzt? Kleine Teams mit starkem Eval-Gerüst schlagen große Teams mit schwachem. Headcount hört auf, der Proxy zu sein. Supervisions-Kapazität wird es.
Werden bessere Coding-Agents das einfacher machen? Bessere Coding-Agents heben die individuelle Output-Qualität, aber nicht die Supervisions-Kapazität. Die Decke bewegt sich langsam, weil Aufmerksamkeit der bindende Constraint ist.
Was ist mit Agent-auf-Agent-Supervision? Manche Teams liefern "Reviewer-Agents" aus, die Coding-Agents prüfen. Sie helfen am Rand. Sie lösen das Fokus-Problem nicht, weil jemand immer noch den Reviewer überwachen muss. Schichten eliminieren das Aufmerksamkeitsbudget des Operators nicht, sie geben es anders aus.
Wie weißt du, dass ein Agent angefangen hat zu driften? Drei Anzeichen. Der Output ist selbstbewusster, als der Kontext rechtfertigt. Der Agent hört auf, klärende Fragen zu stellen. Tests, die vorher fehlschlugen, gehen jetzt ohne Codeänderung durch. Eines davon ist der Cue zum Kontext-Reset.
Ist das nur Engineering, oder gilt es auch für nicht-Code-Arbeit? Es gilt überall, wo Agenten anfassen. Wir sehen dasselbe Muster in Support-Automation, in Research-Workflows und in RAG-Pipelines, die zwischen Spezialagenten routen. Die Zahlen verschieben sich, die Form ist dieselbe.
Die Sonntags-Beobachtung stimmt. Der Engpass hat sich vom Tippen zum Fokus verschoben, und die meisten Teams messen sich noch am alten Constraint. Zu beobachten, wie viele Agenten dein Team ohne Qualitätsverlust überwachen kann, ist jetzt ein vorlaufender Indikator. In Evals und Kontext-Disziplin zu investieren hebt die Decke. Mehr Agenten zu kaufen nicht.
Wenn du 2026 ein KI-lastiges Team skalierst und deine Output-Qualität ausfranst, ist die Antwort nicht mehr Agenten. Es sind weniger Agenten pro Operator, stärkere Evals und kürzere Supervisions-Sessions. Langweilig. Wirksam.
Was glaubst du, ist die Decke für dein Team. Sag's uns, wir wollen Notizen vergleichen.
Skalierst du ein KI-Team?
Kostenloses Erstgespräch buchen