Porównania

Codex CLI vs Claude Code — który terminal AI do czego (po 2 miesiącach)

OpenAI wydało Codex CLI w połowie kwietnia 2025, Anthropic Claude Code weszło do GA w maju. Mieliśmy dwa miesiące na praktyczne porównanie obu — na tych samych zadaniach, na tych samych projektach klienckich. Pokazujemy konkretne fragmenty kodu, czasy, koszty i sytuacje w których jedno wyraźnie wygrywa.

⏱ 10 min czytania · 📅 26.06.2025 · 👁 1 633 wyświetleń

Dwa narzędzia, podobny interfejs (terminal), różna filozofia. Codex CLI to open-source od OpenAI, idzie szybko i agresywnie automatyzuje. Claude Code to zamknięty produkt Anthropic, ostrożniejszy, bardziej "pyta zanim zrobi". W RedAI używamy obu — i to nie jest "jeden wygrywa, drugi przegrywa". Po dwóch miesiącach mamy jasne wytyczne, kiedy sięgać po który.

Trzy zadania testowe na realnych projektach

Wybraliśmy zadania reprezentatywne dla naszej codziennej pracy: refactoring PHP, migracja schema bazy, generowanie testów. Każde wykonywaliśmy oboma narzędziami na świeżym branchu git, mierzyliśmy czas i jakość outputu.

Zadanie 1: refaktor 240-linijkowego kontrolera PHP

Stary controller z legacy systemu klienta logistycznego. Zadanie: rozbić na trzy klasy zgodnie z SRP, dodać typowanie PHP 8.1+, nie zmieniać zachowania.

# Codex CLI
$ codex "refactor src/Controllers/OrderController.php - split into Order, Shipping, Invoice;
        add types, keep behavior, run tests after"

# Claude Code
$ claude "Zrefaktoruj src/Controllers/OrderController.php — rozbij na trzy klasy
         Order, Shipping, Invoice według SRP, dodaj typowanie PHP 8.1+, zachowaj zachowanie,
         uruchom testy po zmianie."

Wynik:

AspektCodex CLIClaude Code
Czas wykonania3 min 12 s4 min 48 s
Liczba zmodyfikowanych plików96
Testy po zmianie2 fail0 fail
Czytelność (subiektywnie, 4 senior devów)3,2/54,1/5
Koszt API0,84 USD1,12 USD

Wniosek: Codex był szybszy, ale wykonał "więcej niż prosiliśmy" — przepisał także DTO i utility helpers, czego nie chcieliśmy. Claude trzymał się instrukcji, zrobił mniej, ale testy przeszły bez poprawek.

Zadanie 2: migracja schema MySQL → MariaDB

Schema 38 tabel, dump 240 MB, kilka procedur składowanych specyficznych dla MySQL. Zadanie: napisać skrypt migracyjny, przetestować, dostarczyć rollback.

Tutaj wygrał Codex CLI. Powód: agresywniejsze podejście pasuje do zadania, gdzie chcemy szybko zobaczyć "co się złamie". Claude Code 4 razy zatrzymywał się z pytaniem "czy zmienić DELIMITER w procedurze X" — co jest poprawne, ale spowalnia. Czas: 11 min vs 7 min na korzyść Codex.

Zadanie 3: pokrycie testami funkcji bez testów

Kawałek kodu w Pythonie obsługujący wyliczenia podatkowe (CIT 9% / 19%, próg 2 mln EUR). 12 funkcji, 0 testów. Zadanie: dopisać testy jednostkowe pokrywające 80%+ ścieżek.

Wygrał Claude Code. Codex CLI napisał 47 testów w 6 minut, ale 14 z nich było zduplikowanych (różne nazwy, ta sama logika). Claude napisał 31 testów w 9 minut, każdy unikalny, z lepszym pokryciem edge case'ów (przejście progu w trakcie roku, korekta z roku poprzedniego).

Filozofie pracy — to nie kwestia "lepsze/gorsze"

Po dwóch miesiącach widzimy wyraźnie:

  • Codex CLI jest jak senior dev który "wie lepiej" — działa szybko, robi więcej niż prosisz, czasem trzeba mu cofnąć zmiany. Świetny do discovery, gdy nie wiesz jeszcze co się złamie. Otwartoźródłowy, można podejrzeć implementację.
  • Claude Code jest jak ostrożny inżynier — pyta przed nieoczywistymi zmianami, trzyma się brief'u, woli mniej zmian o lepszej jakości. Świetny do produkcji, gdzie nie chcemy niespodzianek. Zamknięty, ale lepiej zintegrowany z modelami Anthropic.

Co my robimy w praktyce

W RedAI przyjęliśmy następujący split: Codex CLI do eksploracji nowego kodu klienta (pierwszy dzień wdrożenia — "co tu właściwie jest"), Claude Code do produkcyjnych zmian na branchach które idą do PR. Trzech naszych developerów ma oba zainstalowane, czwarty (nasz tech lead) używa głównie Claude Code.

Koszt miesięczny dla zespołu 4 osób

PozycjaTokens/mies.Koszt (USD)PLN po kursie 4,02
Codex CLI (gpt-4.1)~18M72,40291,05
Claude Code (Sonnet 4)~24M96,80389,14
Claude Code (Opus 4, hard cases)~3M54,20217,88
Razem~45M223,40898,07

Mniej niż jedna licencja JetBrains z pluginami. Dla czteroosobowego zespołu, który dzięki tym narzędziom dostarcza ~28% więcej PR'ów miesięcznie (mierzone we własnym zespole, kwiecień vs czerwiec 2025).

Rekomendacja dla polskich firm

Jeśli macie własny dział IT (2+ developerów) i rozważacie pierwsze narzędzie AI w pipeline — zacznijcie od Claude Code z Sonnet 4. Ostrożniejsza filozofia daje mniejsze ryzyko, że ktoś z zespołu "puści w produkcję" coś niespodziewanego. Codex CLI dodawajcie po 2-3 miesiącach, gdy zespół ma już intuicję co do prompt'owania.

Pełne porównanie 14 typowych zadań developerskich (z kodem) — więcej w bazie wiedzy w sekcji Narzędzia.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.