Codex für Operations: Warum die neue Welle ein COO-Thema ist, kein IT-Experiment

Das Modell ist nicht euer Problem

Ich beobachte gerade dasselbe Muster bei einem halben Dutzend Gründern und COOs: Codex landet als IT-Thema auf dem Tisch. Jemand aus dem Engineering testet es, es entstehen ein paar beeindruckende Demos, und dann passiert wochenlang nichts mehr im operativen Geschäft.

Das ist die falsche Diagnose. Codex hat sich vom Coding-Assistenten zu einer Plattform für Wissensarbeit entwickelt – über fünf Millionen wöchentliche Nutzer im Juni 2026, und 40 Prozent der Neuzugänge im letzten Monat waren keine Entwickler mehr. Analysten, Marketer, Operators, Führungskräfte. Dieser Teil der Nutzerbasis wächst dreimal so schnell wie das Entwicklersegment.

Mit anderen Worten: Die Technologie ist längst aus der IT-Ecke heraus. Was fehlt, ist nicht ein besseres Modell. Was fehlt, ist die operative Vorarbeit, die aus einem mächtigen Werkzeug einen verlässlichen Mitarbeiter macht.

Und genau diese Vorarbeit gehört nicht ins Engineering. Sie gehört auf den Schreibtisch der Person, die für Abläufe verantwortlich ist.

Warum Codex ohne Runbooks ein teures Demo-Tool bleibt

Codex funktioniert agentisch: Du beschreibst eine Aufgabe in natürlicher Sprache, der Agent führt sie autonom in einer abgeschotteten Cloud-Umgebung aus, und du prüfst das Ergebnis asynchron. Klingt nach Magie. Ist es auch – aber nur, wenn die Aufgabe sauber definiert ist.

Hier liegt der Bruch. Die meisten Führungs- und Ops-Aufgaben existieren nirgendwo als Ablauf. Sie leben im Kopf des Gründers. Wie ein Angebot in HubSpot aufgesetzt wird, welche drei Dinge ein Wochenreport enthalten muss, wann ein Linear-Ticket eskaliert wird, wie eine Incident-Postmortem aussieht – all das ist tribal knowledge. Es wird mündlich weitergegeben und stirbt mit dem nächsten Personalwechsel.

Einem Agenten kannst du tribal knowledge nicht übergeben. Du kannst ihm nur einen Ablauf übergeben.

Deshalb gewinnen die Teams mit Vorsprung nicht durch das bessere Modell. OpenAIs eigene Daten zeigen: Die Produktivitätslücke zwischen Power-Usern und allen anderen ist enorm. Der Unterschied liegt in strukturierter Planung – bei OpenAI etwa über eine Plans.md-Datei – und in kontextueller Klarheit. Wer den Kontext nicht aufschreibt, bekommt beeindruckende Demos und keine Ergebnisse.

Was ein Runbook für Operations wirklich heißt

Ein Runbook ist kein Prozessdiagramm aus einem Beratungsprojekt, das niemand liest. Es ist die Antwort auf eine simple Frage: Wenn ich diese Aufgabe an jemanden delegiere, der den Kontext nicht hat – was muss diese Person wissen, um sie korrekt zu erledigen, und woran erkenne ich, dass das Ergebnis stimmt?

Nehmen wir den wöchentlichen Sales-Report. Der schlechte Weg: "Codex, mach mir den Wochenreport." Der gute Weg ist ein Ablauf, der festhält, welche Pipedrive- oder HubSpot-Felder gezogen werden, welche Deals als gefährdet gelten, in welchem Format das Ergebnis kommt, und welche eine Kennzahl ganz oben stehen muss.

Das ist die Arbeit. Und sie ist unsexy. Aber sie ist der Unterschied zwischen einem Agenten, der dir Arbeit abnimmt, und einem, der dir Arbeit macht.

Codex unterstützt dafür modulare, wiederverwendbare Bausteine – sie nennen es Skills und Plugins, die organisatorische Best Practices kodieren. Genau das ist der Hebel für einen COO: Standardabläufe einmal definieren, dann über Teams und Standorte hinweg ausrollen, Updates zentral verteilen. Das reduziert die Single Points of Failure, die in jeder wachsenden Firma entstehen.

Wo die operativen Beschleuniger schon greifen

Die neue Codex-Generation kommt mit sechs rollenspezifischen Plug-ins – Datenanalyse, Kreativproduktion, Sales, Produktdesign, Equity Investing, Investment Banking. Das sind keine Coding-Werkzeuge mehr. Das sind operative Beschleuniger: automatisierte Reportgenerierung, Dashboard-Erstellung, Angebotsentwürfe, Produktdokumentation, Due-Diligence-Material.

Das Sites-Feature lässt Teams aus Codex-Outputs gehostete, interaktive Tools machen, die per URL geteilt werden. Für einen Operator heißt das: internes Onboarding-Material, das aktuell bleibt, ohne dass IT einen Sprint dafür blockt. Weniger Engpässe, weil die Abhängigkeit vom Entwicklerteam für interne Tools sinkt.

Die konkreten Beispiele sind aufschlussreich. Zapier zieht Wissen aus Slack, Google Docs und Coda und macht daraus Postmortems, Incident-Pläne und Feature-Tickets. OpenAI selbst nutzt Codex intern, um Executive-Materialien vorzubereiten und Dashboards zu automatisieren. NVIDIA beschleunigt damit Experiment-Workflows von der Idee bis zur Infrastruktur.

Was all diese Fälle gemeinsam haben: Es geht um wiederkehrende Abläufe, die jemand sauber definiert hat. Nicht um einmalige Geistesblitze.

Der Kontext-Switch ist der eigentliche Kostentreiber

Ich sehe bei den meisten Operatoren denselben verdeckten Verlust: Sie verbringen den Tag damit, zwischen Gmail oder Outlook, Slack, dem CRM und dem Projekttool hin- und herzuspringen. Jeder Wechsel kostet Kontext. Jeder offene Thread, der nicht beantwortet wird, kommt als Eskalation zurück.

Der Reiz von agentischen Tools liegt genau hier. Mehrere Agenten arbeiten parallel an unterschiedlichen Aufgaben, du prüfst asynchron, statt in einem synchronen Meeting alles durchzukauen. Das passt zu verteilter und hybrider Arbeit. Der Mensch behält die Entscheidung, der Agent übernimmt die Ausführung.

Aber – und das ist die Pointe – Parallelisierung ohne definierte Abläufe vervielfacht nur das Chaos. Wenn du fünf Agenten auf fünf unscharf formulierte Aufgaben loslässt, bekommst du fünfmal so viel Output, den du fünfmal so aufwendig korrigieren musst.

Das ist auch der Grund, warum ich bei Moments darauf bestehe, dass ein KI-Chief-of-Staff in deinen Stack eingebunden ist – Mail, Kalender, Kontakte, Dokumente – und nicht daneben steht. Kontext ist nicht das Beiwerk. Kontext ist die ganze Aufgabe. Ein Agent, der deine Threads kennt, deine Kontakte und deinen Kalender, kann einen Ablauf ausführen. Ein Agent in einer leeren Sandbox kann nur raten.

Aufsicht ist Teil des Ablaufs, nicht die Ausnahme

Mehr Output bedeutet mehr Prüfung. Codex' /goal-Feature erlaubt persistente, autonome Ausführung – und erhöht damit genau den Bedarf an menschlicher Aufsicht. Bei OpenAI ist automatisiertes Code-Review inzwischen Standard über fast alle Repositories, und Tools wie CodeRabbit gelten als Pflichtbegleiter.

Übersetz das auf Operations. Wenn dein Agent Angebotsentwürfe in HubSpot schreibt oder Tickets in Linear anlegt, brauchst du einen Prüfschritt, der nicht von deinem Bauchgefühl abhängt. Der Prüfschritt gehört ins Runbook. "Korrekt ist das Ergebnis, wenn folgende drei Bedingungen erfüllt sind" – das ist kein Bürokratie-Zusatz, das ist der Teil, der Delegation überhaupt sicher macht.

Die Sicherheitsarchitektur hilft dabei: Codex läuft in isolierten Cloud-Containern ohne allgemeinen Internetzugang, lehnt schädliche Anfragen ab und protokolliert jede Aktion transparent. Für jeden, der in regulierten Bereichen wie Finanzen oder Healthcare arbeitet, ist das die Grundlage, überhaupt anzufangen.

Und ein ehrliches Wort: Codex ist nicht alternativlos. Manche Teams bleiben aus guten Gründen bei Claude Code oder OpenCode – wegen Stabilität, planbarer Kosten und Integration in bestehende Abläufe. Vendor Lock-in ist real. Die Entscheidung, welches Werkzeug, ist sekundär. Die Entscheidung, ob ihr eure Abläufe überhaupt delegierbar macht, ist primär.

Was ich einem COO konkret raten würde

Fang nicht mit dem Tool an. Fang mit einer Liste an: Welche fünf Aufgaben erledigst du oder dein Team jede Woche, die genau gleich ablaufen? Der Wochenreport, das Lead-Routing, das Onboarding-Paket, die Meeting-Vorbereitung, die Rechnungsfreigabe in Stripe.

Nimm eine davon. Schreib sie als Ablauf auf – Input, Schritte, Prüfkriterium, Format. Das dauert eine Stunde und fühlt sich nach verschwendeter Zeit an. Es ist die wertvollste Stunde der Woche, weil sie eine Aufgabe von dir löst, ohne dass jemand neu eingestellt wird.

Erst dann übergibst du sie an einen Agenten. Codex, Moments, was auch immer in euren Stack passt. Das Werkzeug folgt dem Ablauf, nicht umgekehrt.

Der Unterschied zwischen einem großartigen Chief of Staff und einem Aufgabenverwalter war nie die Geschwindigkeit. Es war das Urteilsvermögen darüber, was eine Aufgabe gut macht. Genau dieses Urteilsvermögen schreibst du in ein Runbook. Die Firmen, die das jetzt tun, skalieren ihre Best Practices. Die anderen sammeln beeindruckende Demos.

Nimm dir die Stunde.

Häufig gestellte Fragen

Ist Codex für Operations nur etwas für technische Teams?

Nein. 40 Prozent der Codex-Neuzugänge im letzten Monat waren keine Entwickler, und das Wissensarbeiter-Segment wächst dreimal so schnell wie das Entwicklersegment. Die rollenspezifischen Plug-ins decken Datenanalyse, Sales, Kreativproduktion und Finanzen ab – also genau die Bereiche, für die ein COO verantwortlich ist.

Warum reicht ein gutes Modell nicht aus?

Weil die meisten Führungs- und Ops-Aufgaben nirgendwo als Ablauf existieren – sie leben im Kopf des Gründers. Ein Agent kann nur ausführen, was sauber definiert ist. OpenAIs eigene Daten zeigen, dass strukturierte Planung und Kontext den Unterschied zwischen Power-Usern und allen anderen ausmachen, nicht das Modell.

Was genau ist ein operatives Runbook?

Die Antwort auf die Frage: Wenn ich diese Aufgabe an jemanden ohne Kontext delegiere, was muss diese Person wissen, und woran erkenne ich, dass das Ergebnis stimmt? Konkret heißt das: Input, Schritte, Prüfkriterium und Zielformat festhalten – zum Beispiel welche HubSpot- oder Pipedrive-Felder ein Wochenreport zieht.

Wie hängt das mit dem restlichen Tool-Stack zusammen?

Kontext ist nicht Beiwerk, sondern die ganze Aufgabe. Ein Agent, der in deinen Stack eingebunden ist – Gmail oder Outlook, Slack, CRM, Kalender – kann einen Ablauf ausführen. Ein Agent in einer leeren Sandbox kann nur raten. Deshalb funktioniert Delegation nur dort, wo der Kontext mitkommt.

Quellen (23)