Wielka Czwórka AI: Crash Test - Część 1: Multimodalność

Artykuł zapowiada serię porównawczych testów czterech wiodących modeli AI (ChatGPT, Gemini, Claude, DeepSeek), skupionych nie na „ładnych odpowiedziach”, lecz na realnych kompetencjach: rozumowaniu, multimodalności i pracy agentowej. Autor pokazuje, że w latach 2025–2026 modele przeszły drogę od rozmówców do systemów wykonawczych, które edytują obrazy, analizują wideo, korzystają z narzędzi i obsługują interfejsy jak człowiek. Jednocześnie rośnie ryzyko subtelnych błędów i halucynacji, trudnych do wychwycenia przez użytkownika. Dlatego testy obejmują m.in. edycję obrazu, logikę, dane, wideo i planowanie agentowe, z naciskiem na metodę działania, spójność i umiejętność przyznania się do ograniczeń. Pierwszy eksperyment dotyczy natywnej edycji obrazu i porównuje Gemini 3 oraz ChatGPT 5.2.

Jeszcze na początku 2025 roku testowanie „chatów” bywało zaskakująco proste: wrzucasz prompt, dostajesz odpowiedź, sprawdzasz czy brzmi sensownie, ewentualnie prosisz o poprawki. Dziś, w 2026, taka metodologia coraz częściej nie wystarcza. Modele przestały być wyłącznie generatorami tekstu. Coraz częściej zachowują się jak systemy wykonawcze: analizują obrazy, rozumieją wideo, uruchamiają narzędzia, wchodzą w rolę „agenta” i potrafią przeprowadzić użytkownika przez cały proces – od danych wejściowych po gotowy rezultat. A jednocześnie wciąż potrafią spektakularnie potknąć się o rzeczy pozornie banalne: założyć błędny kontekst, „dopowiedzieć” brakujące fakty albo zgubić spójność w dłuższej pracy.

W jednym z poprzednich artykułów zapowiadałem, że zamiast dyskutować o tym, „który model jest najlepszy”, zrobię serię porównywalnych, powtarzalnych eksperymentów – takich, które wymuszają realną kompetencję, a nie tylko elokwencję. Początek roku to idealny moment na taki test, test bez taryfy ulgowej: te same zadania, te same kryteria, ta sama presja na precyzję.

W testach bierze udział czterech graczy, każdy z nieco inną filozofią produktu i inną reputacją wśród użytkowników:

ChatGPT (OpenAI) – najbardziej „narzędziowy” ekosystem, w którym multimodalność i integracje potrafią realnie zmienić workflow pracy. W ostatnich miesiącach mocno przyspieszył temat edycji grafiki „wewnątrz” czatu i integracji z narzędziami kreatywnymi.
Gemini (Google) – platforma, która konsekwentnie pcha multimodalność w stronę pracy na żywym obrazie i przepływów „między aplikacjami”, a nie tylko odpowiedzi tekstowych.
Claude (Anthropic, u mnie uruchamiany via Perplexity) – znany z jakości pisania i pracy na kontekście, ale też z wyraźnego zwrotu w stronę agentów, tool-use i automatyzacji „jak człowiek przy komputerze”.
DeepSeek – gracz, którego dynamika rozwoju w 2025–2026 jest jedną z ciekawszych historii „spoza Zachodu”: akcent na rozumowanie, efektywność i szybkie iteracje architektury/treningu.

Co realnie zmieniło się od początku 2025?

Najprościej: w 2025 roku chaty były „mądre w rozmowie”. W 2026 coraz częściej są mądre w działaniu.

1) Obraz: od generowania do edycji lokalnej i spójności detali

Na początku 2025 generowanie obrazów było coraz lepsze, ale edycja konkretnych fragmentów (z zachowaniem tożsamości postaci, kontrolą tła, ubioru i drobnych akcesoriów) potrafiła być loterią. Dziś widzimy wyraźny nacisk na „image editing” jako funkcję produktu, a nie ciekawostkę: precyzyjne poprawki, selekcja obszarów i iteracje, które nie rozwalają całej sceny.

2) Wideo: od opisu scen do rozumienia w czasie

W 2025 wideo było często traktowane jak „seria klatek” albo skrótowa transkrypcja z komentarzem. Teraz pojawia się coraz więcej zastosowań, w których model ma interpretować zdarzenia w czasie, powiązania przyczynowo-skutkowe i kontekst sytuacyjny. Google bardzo otwarcie komunikuje wzmocnienie tego obszaru (włącznie z rozumieniem długiego wideo), a jednocześnie dokumentacja techniczna przypomina, że nawet „mocne” modele potrafią działać na próbkowaniu klatek – co bywa krytyczne przy scenach dynamicznych.

3) Narzędzia i automatyzacje: model jako agent, nie rozmówca

W 2025 „tool use” często oznaczało pojedyncze wywołanie funkcji albo integrację z jedną usługą. W 2026 narracja przesuwa się na łańcuchy działań: wyszukiwanie narzędzi, planowanie sekwencji, wykonywanie kroków i raportowanie. Anthropic rozwija to wprost jako kierunek produktowy (m.in. mechanizmy ułatwiające pracę z wieloma narzędziami), a równolegle rynek integracji rośnie – przykładowo OpenAI i Adobe komunikują wpinanie narzędzi kreatywnych i dokumentowych w doświadczenie czatu.

4) „Computer use”: agent, który klika, wpisuje i obsługuje interfejs

To jeden z tych momentów, który dobrze pokazuje różnicę między 2025 a 2026. Wcześniej automatyzacje wymagały API albo specjalnie przygotowanych wtyczek. Teraz pojawia się podejście „używam komputera jak człowiek”: model widzi ekran, wykonuje akcje i przechodzi przez UI. To otwiera zupełnie nowe możliwości – i nowy zestaw ryzyk (kruchość UI, błędne kliknięcia, niejednoznaczność).

5) DeepSeek i presja koszt/efektywność

W tle tej „wojny funkcji” rośnie jeszcze jeden wątek: wydajność treningu i inferencji. DeepSeek jest często omawiany właśnie w tej perspektywie – rozwój metod trenowania i nacisk na skalowanie bez klasycznego „dosypmy GPU i zobaczymy”.

Dlaczego te eksperymenty, a nie „zwykłe porównanie odpowiedzi”?

Bo w 2026 łatwo dać się zwieść. Modele potrafią brzmieć perfekcyjnie nawet wtedy, gdy robią błąd logiczny, pomijają ważne ograniczenie, albo wygodnie „zaokrąglają rzeczywistość”. Dlatego zestaw testów, który przygotowałem, jest celowo przekrojowy: sprawdza nie tylko wiedzę, ale też kontrolę nad procesem, spójność, umiejętność pracy na plikach oraz radzenie sobie z multimodalnością.

W kolejnych częściach serii każdy z modeli przejdzie przez sześć prób:

Edycja obrazu (multimodalność natywna) – czy potrafi wykonać lokalne zmiany bez utraty tożsamości i realizmu.
Aplikacja z prompta (zero kodowania) – Czy da się zrobić aplikację bez programowania.
Matematyka i logika – czy model rzeczywiście dowodzi i analizuje, czy tylko „odtwarza” schemat.
Agent danych (Excel/Python) – czy umie czyścić dane, wykryć anomalie i dowieźć pliki wynikowe.
Analiza wideo (temporal reasoning) – czy rozumie czas, ruch i związki przyczynowo-skutkowe.
Planowanie agentowe (tool use) – czy potrafi sensownie zaplanować podróż i działania „na zewnątrz”, uwzględniając ograniczenia.

Co może pójść nie tak (i o to też chodzi)

Wynik tego testu nie będzie wyłącznie listą „kto wygrał”. Bardziej interesuje mnie odpowiedź na pytania praktyczne:

Który model jest najbardziej rzetelny, gdy zadanie wymaga rygoru (matematyka, kod, dane)?
Który jest najbardziej precyzyjny w pracy multimodalnej (obraz, wideo)?
Który najsprawniej działa jako agent, czyli planuje i wykonuje kroki z użyciem narzędzi – bez gubienia kontekstu?
Gdzie pojawiają się typowe porażki: halucynacje, nadinterpretacje, błędne założenia, „ładne odpowiedzi” bez pokrycia?

Jeśli w 2025 największym problemem było to, że model „czasem się myli”, to w 2026 problem brzmi inaczej: model bywa na tyle przekonujący, że błąd jest trudniejszy do zauważenia. Dlatego w tej serii będę patrzył nie tylko na rezultat, ale też na metodę dojścia, spójność i to, czy model umie powiedzieć: „tego nie wiem” albo „tego nie da się zrobić w tych warunkach”.

W następnym kroku przechodzę do pierwszego eksperymentu: matematyka i logika. Zaczynamy od obszaru, który najszybciej obnaża różnicę między „ładnym tekstem” a rzeczywistym rozumowaniem.

Test 1: Edycja obrazu (multimodalność natywna)

„Edycja obrazu (multimodalność natywna)” oznacza, że model AI potrafi pracować bezpośrednio na obrazie (a nie tylko na samym opisie tekstowym) i rozumie go w sposób „wbudowany” w ten sam mechanizm, którym rozumie tekst.

W praktyce chodzi o trzy rzeczy:

Rozumienie obrazu + tekstu jednocześnie (multimodalność)
Model analizuje, co jest na zdjęciu (obiekty, układ sceny, światło, perspektywa), a potem interpretuje Twoje polecenia tekstowe.
Edycja na bazie konkretnego obrazu (nie generowanie od zera)
Zamiast „narysować nowy domek ze śniegiem”, model bierze Twoje zdjęcie jako bazę i modyfikuje je: np. dodaje śnieg, usuwa chmury, zmienia niebo, dodaje słońce, poprawia cienie – przy zachowaniu geometrii i kompozycji.
„Natywna” = bez sztucznych etapów pośrednich
W starszym podejściu bywało tak, że system:
- najpierw „opisywał” obraz słowami,
- potem na podstawie opisu próbował wygenerować wariant,
  co często prowadziło do błędów (np. zmiana kształtu domu, przestawienie elementów).
  „Natywna multimodalność” oznacza, że obraz nie jest tylko „zamieniany na tekst” – model ma wewnętrzną reprezentację wizualną i może celniej zachować detale.

W tym teście wezmą udział tylko dwa wiodące modele: Gemini 3 oraz ChatGPT 5.2 ponieważ Claude czy DeepSeek nie oferują możliwości edycji obrazu.

Zacznijmy od pierwszego zdjęcia:

‍

‍

Użyłem tego samego polecenia w przypadku Gemini 3 oraz ChataGPT 5.2, które brzmiało:

“Dodaj śnieg, ale pozostaw auto odśnieżone, usuń chmury i dodaj słońce, zadbaj o właściwe cienie, słońce powinno być z prawej strony domu”

Czyli sprawdzamy :

„Dodaj śnieg, ale auto odśnieżone” → model musi rozróżnić obszary (grunt/roślinność vs. samochód i fragmenty podjazdu) i selektywnie nałożyć śnieg
„Usuń chmury i dodaj słońce z prawej” → zmiana nieba + źródła światła
„Zadbaj o właściwe cienie” → spójność kierunku cieni (prawa strona jako źródło światła) na domu, terenie i obiektach

‍

Obraz usyskany z Gemini 3 (model Nano Banana Pro):

I z ChatGPT 5.2 (Thinking):

‍

‍

Oba modele poradziły sobie z zachowaniem oryginalnych elementów i z dodaniem śniegu, oraz zmianą nieba. Multimodalność faktycznie w obu przypadkach działa jednak w różnym stopniu dokładności. Oba modele poradziły sobie z:

„Dodaj śnieg”
„Usuń chmury i dodaj słońce z prawej”

Natomiast od razu widać, że Gemini dużo lepiej poradził sobie z realizmem, zachowaniem praw optyki oraz wykonaniem wszystkich poleceń :

„Zadbaj o właściwe cienie” - w przypadku Gemini cienie są zgodne z położeniem słońca
“ale pozostaw auto odśnieżone” - Gemini właściwie pozostawił auto niezaśnieżone

W przypadku Gemini, śnieg jest nałożony bardziej naturalnie,tam gdzie dolny daszek jest od góry przykryty okapem głównego dachu, śniegu jest mniej. Natomiast zmiany wprowadzone przez GPT podbijają optycznie elementy, które miały pozostać niezmienione (kontrast elewacji domu), obraz sprawia wrażenie “wygenerowanego”.

Do kolejnego zdjęcia, dla dobra nauki ;) użyłem własnego zdjęcia, ponieważ nie dalej jak 4 miesiące temu, modele nie potrafiły zachować kontekstu i wprowadzać zmian z zachowaniem rysów twarzy

Tym razem oryginał wyglądał następująco:

‍

Ponownie to samo polecenie dla obu narzędzi, które tym razem brzmiało:

“Zmień fryzurę i brodę na styl drwala ale ma być elegancka, fryzura gładka zaczesana na bok, broda też ułożona typu duck tail, nic więcej nie zmieniaj”

Obraz wygenerowany przez Gemini 3 (model Nano Banana Pro):

‍

I obraz wygenerowany przez ChatGPT 5.2 (Thinking):

‍

‍

Oba narzędzia właściwie zrozumiały koncepcję estetyczną, jednak w kwestii zachowania rysów twarzy różnica jest od razu widoczna.

Gemini świetnie poradziło sobie z zadaniem, wprowadzając modyfikacje dokładnie tam, gdzie prosiłem, przy pełnym zachowaniu mojego wyglądu.

W przypadku ChatGPT twarz została nieznacznie, ale zauważalnie zmieniona, przez co postać na zdjęciu przestała być mną. Potwierdza to moje wcześniejsze spostrzeżenia, że Gemini lepiej trzyma się kontekstu i nie ma tendencji do nadmiernego „generowania” rysów od zera.

W tym starciu na multimodalność i realizm to właśnie model od Google znów udowodnił, że potrafi edytować zdjęcie bez utraty kluczowych cech oryginału.

Na koniec mały smaczek, na pokazanie możliwości Gemini i tego jak daleko Nano Banana “rozumie” elementy na zdjęciu ich geometrię i perspektywę.

Tym razem poprosiłem o wygenerowanie loga w formie głowy wilka, umieszczenie go na ogonie oraz zmiana nazwy linii lotniczych na Wataha Air, efekt uzyskany przez Gemini poniżej:

‍

I dla porównania ChatGPT:

‍

‍

Bez zaskoczeń, model Nano Banana “umie” w geometrię doskonale. Integruje wygenerowane grafiki ze zdjęciem tak, że nie znając orygniału, trudno doszukać się zmian. ChatGPT w tym względzie jeszcze ma wiele do nadrobienia.

Czyli?

W bezpośrednim starciu Gemini 3 i ChatGPT 5.2 oba modele wykonują podstawowe polecenia (śnieg, niebo, słońce), ale różnica ujawnia się w tym, co najtrudniejsze: precyzji lokalnej edycji, spójności optycznej i utrzymaniu tożsamości.

W praktyce:

Gemini 3 wygrywa realizmem: lepiej trzyma prawa optyki (cienie zgodne ze słońcem), skuteczniej rozdziela obszary (śnieg tam, gdzie powinien, przy zachowaniu odśnieżonego auta), a zmiany wyglądają naturalnie i „wtopione” w zdjęcie.
ChatGPT 5.2 częściej „przegenerowuje” obraz: podbija kontrast i detale w miejscach, które miały pozostać bez zmian, przez co efekt bywa bardziej „syntetyczny”. Najbardziej krytyczny punkt to portret – przy zmianie fryzury i brody model potrafi subtelnie zmienić rysy twarzy, co w edycji zdjęć jest błędem dyskwalifikującym w wielu zastosowaniach.

Końcowe porównanie (logo na samolocie + zmiana nazwy linii) domyka wniosek: w tym teście Gemini pokazuje wyraźnie lepszą kontrolę geometrii i perspektywy, a więc lepszą integrację elementów generowanych z materiałem źródłowym. Na dziś, w kategorii „multimodalna edycja obrazu”, przewaga jest po stronie Google.

W kolejnym artykule Test 2 - Aplikacja z prompta

W kolejnym odcinku serii przechodzę z multimodalności do obszaru, który w 2026 stał się jednym z najgłośniejszych obietnic AI: aplikacja z prompta, bez pisania kodu.

Brzmi jak marketing, ale właśnie dlatego robię to w formie „crash testu”: sprawdzam, czy model potrafi przejść od opisu potrzeby do działającego rozwiązania, a nie tylko wygenerować ładny opis tego, co „powinno się dać zrobić”.

W teście „zero kodowania” interesują mnie trzy rzeczy:

Projekt produktu z samego prompta
Czy model potrafi dopytać o wymagania, zaproponować sensowny MVP i nie zgubić się w logice funkcji, ekranów oraz ograniczeń?
Dowiezienie działającej aplikacji, nie makiety
Czy da się uzyskać efekt, który faktycznie działa (interakcje, dane, walidacje, proste workflow), czy kończy się na „tutaj kliknij, tutaj dodaj” i ogólnikach?
Utrzymanie spójności w iteracjach
Prawdziwy problem zaczyna się w poprawkach: zmiany w jednym miejscu potrafią rozjechać całość. Sprawdzę, czy model utrzymuje architekturę rozwiązania i nie resetuje kontekstu co dwie iteracje.

To będzie test praktyczny: z jednym, jasno opisanym celem i zestawem kryteriów, które pozwolą odróżnić „generator tekstu” od systemu, który realnie pomaga dowieźć produkt. Jeśli AI ma być narzędziem do budowania, a nie tylko do rozmowy, to właśnie tutaj powinno to być najbardziej widoczne.

Paweł Panowicz

14 stycznia 2026

Sprawdź profil eksperta