Który LLM jest najlepszy dla Polaka? Pierwszy polski test AI

Ranking LLM-ów. Polskie modele językowe przegrywają z globalnymi. Openverse

Polska rozwija własne modele AI, ale pierwszy prawdziwy test pokazuje, że globalne LLM-y wciąż wygrywają. Które narzędzie najlepiej działa po polsku?


Polska rozwija własne LLM-y, ale czy to wystarczy?

Mamy swoje całkiem spore doświadczenia w dziedzinie sztucznej inteligencji. W ostatnich latach powstały polskie modele LLM, takie jak PLLuM czy Bielik, które rozwijają krajowe instytucje naukowe oraz administracja publiczna. Co więcej, projekty te stopniowo trafiają do administracji i gospodarki. Jednym z przykładów jest wykorzystanie modelu PLLuM w usługach publicznych, w tym w aplikacji mObywatel, gdzie wspiera obywateli w kontaktach z urzędami i dostępem do informacji.

Jednocześnie państwo inwestuje w rozwój własnych technologii, dążąc do stworzenia suwerennej sztucznej inteligencji, która nie tylko rozumie język polski, ale także operuje w kontekście krajowego prawa i realiów społecznych. Dlatego w tym przypadku nie chodzi wyłącznie o wygodę użytkownika, lecz również o bezpieczeństwo danych oraz kontrolę nad infrastrukturą cyfrową.

Właśnie dlatego pojawia się dla nas najważniejsze pytanie: który LLM jest dla Polaka naprawdę najlepszy?

Na to pytanie próbuje odpowiedzieć raport przygotowany przez Marka Jeleśniańskiego, CEO firmy Oxido, który przeprowadził jedno z pierwszych w Polsce badań porównawczych dużych modeli językowych w normalnych warunkach użytkowania.

Jak pisze inicjator badania Marek Jelesiański z Oxido:

Odpowiedzi uzyskane w 12 narzędziach były oceniane przez łącznie 11 osób, dzięki czemu możemy spojrzeć na pracę LLM-ów z perspektywy typowego użytkownika, a nie tylko syntetycznych benchmarków (nie neguję ich znaczenia; po prostu przyjęliśmy inną metodologię). Ale to dopiero początek. To co wyróżnia moje badania to fakt, że bazowaliśmy w 100% na języku polskim – w naszym języku były prompty i w tym języku oczekiwaliśmy odpowiedzi. To kolejny dość unikalny wymiar badań modeli sztucznej inteligencji.

Testowane modele AI. Źródło: https://jelesnianski.pl/

W efekcie powstało badanie, które nie testuje wyłącznie możliwości technologicznych modeli, lecz przede wszystkim ich użyteczność w polskich realiach językowych, kulturowych i zawodowych.


Kluczowe pytanie: który LLM jest najlepszy dla Polaka?

Dotychczasowe analizy skupiały się głównie na benchmarkach technicznych, które badają zdolności modeli w warunkach laboratoryjnych. Problem polega jednak na tym, że takie testy rzadko odzwierciedlają rzeczywiste potrzeby użytkowników. Użytkownik oczekuje, że model napisze poprawnego maila, wyjaśni przepisy w sposób zrozumiały i odniesie się do kontekstu kulturowego bez popełniania oczywistych błędów. Innymi słowy, sztuczna inteligencja powinna działać w codziennym życiu, a nie tylko dobrze wypadać w testach.

O wartości modelu AI nie decydują tylko benchmarki, ale to, czy rozumie język, kulturę i realia pracy użytkownika, które mogą wyglądać inaczej w Polsce niż np. w USA. Dlatego tak ważne są badania oparte na rzeczywistych scenariuszach użycia. Pokazują, jak modele radzą sobie w codziennej pracy w określonym kontekście kulturowym i językowym, dostarczając bardziej praktycznej wiedzy niż same wyniki testów technicznych. – opisuje problem Jacek Bąk, twórca treści o AI.


„Sprawdzam” dla AI – wyniki w poszczególnych kategoriach

Dopiero analiza wyników w podziale na konkretne kategorie pokazuje, jak bardzo zróżnicowane są kompetencje modeli językowych. Co istotne, nie istnieje jeden model, który dominowałby we wszystkich obszarach.

  • W zadaniach praktycznych, takich jak pisanie maili czy przygotowanie odpowiedzi dla klienta, większość modeli osiągała wysoki i stosunkowo wyrównany poziom. Najlepiej radziły sobie modele globalne – przede wszystkim Gemini, Qwen i GPT – które generowały odpowiedzi spójne, poprawne językowo i dopasowane do kontekstu. W tym obszarze przewaga nad modelami polskimi była zauważalna, choć nie miała charakteru absolutnego.
  • W obszarze doradztwa biznesowego i prostych porad dla przedsiębiorców różnice zaczynały być bardziej widoczne. Najlepsze modele nie tylko odpowiadały na pytania, ale również porządkowały problem i proponowały konkretne rozwiązania. Słabsze systemy częściej ograniczały się do ogólników lub powielały treść zapytania bez realnej wartości dodanej.
  • Jeszcze większe rozbieżności pojawiły się w zadaniach prawnych i podatkowych. W tej kategorii część modeli potrafiła wskazać kierunek interpretacji, jednak nawet wśród liderów zdarzały się uproszczenia i błędy. W przypadku słabszych LLM-ów odpowiedzi bywały nieprecyzyjne lub wprowadzające w błąd, co w praktyce ogranicza ich użyteczność w pracy wymagającej wysokiej dokładności.
  • W części dotyczącej języka i kultury – obejmującej m.in. literaturę, zwyczaje oraz poprawność językową – wyniki były nierówne. Modele globalne radziły sobie dobrze z ogólną wiedzą, jednak traciły na dokładności przy bardziej szczegółowych zadaniach. Co istotne, modele polskie nie uzyskały wyraźnej przewagi. Choć lepiej operowały językiem, często przegrywały pod względem spójności i kompletności odpowiedzi.
  • W kategorii wiedzy o Polsce, obejmującej zarówno historię, jak i bieżące informacje, modele osiągały umiarkowanie dobre wyniki. Odpowiedzi były zazwyczaj poprawne, ale często uproszczone i pozbawione głębszego kontekstu. To pokazuje, że AI dobrze radzi sobie z wiedzą ogólną, lecz ma trudności z jej pogłębioną interpretacją.
Powiatowy Urząd Pracy w Sanoku. Fot: Lowdown, CC BY-SA 3.0
Społeczeństwo

Sztuczna inteligencja w administracji. Częstochowa testuje PLLuM, a mObywatel ma już asystenta AI

Największym problemem okazała się jednak stabilność działania. Nawet najlepiej oceniane modele potrafiły generować odpowiedzi wysokiej jakości w jednym zadaniu, a w kolejnym znacząco obniżać poziom. W praktyce oznacza to, że użytkownik nie może w pełni polegać na jednym narzędziu w każdym scenariuszu.

Ranking końcowy nie wskazuje modelu idealnego, lecz taki, który najczęściej utrzymuje wysoki poziom w różnych zastosowaniach. I to właśnie ta powtarzalność jakości, a nie pojedyncze spektakularne wyniki, zadecydowała o przewadze modeli globalnych nad polskimi.


Które modele wygrywały w konkretnych zadaniach

Dopiero zestawienie wyników według modeli pokazuje, że każdy z czołowych LLM-ów ma inny profil mocnych i słabych stron.

Gemini 3.1 Pro, który wygrał cały ranking, nie dominował bezwzględnie w każdej kategorii, ale najczęściej utrzymywał wysoki poziom odpowiedzi. Szczególnie dobrze radził sobie w zadaniach użytkowych – takich jak pisanie maili czy tworzenie odpowiedzi biznesowych – gdzie liczy się struktura, język i dopasowanie do kontekstu. Jednocześnie w bardziej złożonych pytaniach, np. prawnych, potrafił upraszczać odpowiedzi.

Qwen zaskoczył wysoką pozycją, ponieważ w wielu zadaniach osiągał bardzo dobre wyniki językowe i logiczne. Szczególnie dobrze wypadał w generowaniu spójnych, uporządkowanych odpowiedzi. Jednak w bardziej specjalistycznych obszarach jego odpowiedzi bywały mniej precyzyjne niż u lidera.

Llama (Meta) prezentowała stabilny, średnio-wysoki poziom. Nie była najlepsza w żadnej konkretnej kategorii, ale rzadko wypadała bardzo słabo. To właśnie ta „równość” wyników pozwoliła jej znaleźć się na podium, mimo braku wyraźnej dominacji.

GPT (OpenAI) oraz Claude (Anthropic) osiągnęły wyniki zbliżone do siebie i uplasowały się w środku stawki. W praktyce dobrze radziły sobie z komunikacją i ogólnymi zadaniami językowymi, ale nie wyróżniały się na tle liderów. W niektórych przypadkach ich odpowiedzi były bardziej zachowawcze lub mniej dopasowane do polskiego kontekstu.

Grok (xAI) również znalazł się w środku zestawienia. Model ten radził sobie poprawnie w zadaniach ogólnych, jednak miał większe problemy ze stabilnością jakości odpowiedzi i dopasowaniem do specyfiki języka polskiego.

Najciekawsze wnioski płyną jednak z wyników modeli europejskich i polskich, takich jak PLLuM czy Bielik. Choć można by oczekiwać, że będą one dominować w zadaniach związanych z językiem i kulturą, w praktyce tak się nie stało. Modele te często wypadały gorzej pod względem spójności, kompletności odpowiedzi i ogólnej użyteczności.

Słabsze wyniki polskich modeli nie wynikały z całkowitego braku kompetencji językowych, lecz raczej z ograniczeń skali i dopracowania modeli. W wielu przypadkach odpowiedzi były poprawne, ale mniej rozbudowane, mniej precyzyjne lub gorzej dopasowane do kontekstu użytkownika.

Można zauważyć wyraźny podział: modele globalne dominują w uniwersalności i stabilności, natomiast modele lokalne wciąż nadrabiają dystans, szczególnie w zakresie jakości i powtarzalności odpowiedzi.


To nie tylko ranking. To diagnoza rynku AI

Sama kolejność modeli nie jest najważniejsza. Znacznie istotniejsze jest to, co wynika z analizy ich odpowiedzi.

Po pierwsze, modele językowe stosunkowo dobrze radzą sobie z zadaniami praktycznymi, takimi jak tworzenie treści użytkowych czy komunikacja biznesowa. W tych obszarach różnice między nimi są stosunkowo niewielkie.

Po drugie, znacznie gorzej wypadają tam, gdzie potrzebne jest głębsze zrozumienie kontekstu. Dotyczy to zarówno humoru, jak i bardziej subtelnych aspektów kulturowych. W takich sytuacjach modele często generują odpowiedzi powierzchowne, a czasem wręcz nietrafne.

figurka Temidy/ fot: Tingey Injury Law Firm/Unsplash
News / Społeczeństwo

The Guardian: jak AI skompromitowało prawnika. Sąd odrzuca zmyślone przez AI precedensy

Co więcej, problem nie dotyczy wyłącznie jakości odpowiedzi, ale również ich wiarygodności. Szczególnie dobrze widać to w obszarach wymagających precyzji, takich jak prawo. Na to zwraca uwagę Jakub Ferek, prawnik IT:

„LLM-y mogą być bardzo pomocne w prawnym researchu – potrafią szybko zebrać argumenty, zweryfikować dokument czy pomóc uporządkować materiał. Nie są jednak wiarygodnym źródłem wiedzy prawniczej. Modele, zwłaszcza te otwarte, często halucynują, czyli potrafią wymyślać przepisy lub orzeczenia. Dlatego warto traktować je raczej jako niewykształconego asystenta prawnika, niż jego zastępstwo. Ponadto dostawcy nie zawsze gwarantują nabycie praw autorskich do wygenerowanych treści czy bezpieczeństwo poufnych informacji. Dlatego do wprowadzania i tworzenia wrażliwych danych w takich systemach należy podchodzić bardzo ostrożnie.”


Podsumowanie raportu: kto wygrywa i dlaczego

Na początek najważniejsze: najlepsze wyniki w teście osiągnęły modele globalne – przede wszystkim Gemini, Qwen i Llama. Co istotne, ich przewaga nie wynika z lepszego „rozumienia Polski”, lecz z jakości działania. Są bardziej stabilne, częściej trafiają w sedno i rzadziej wymagają poprawek. W praktyce oznacza to po prostu mniej pracy dla użytkownika.

GPT i Claude utrzymują solidny, średni poziom. Z jednej strony dobrze radzą sobie z językiem i komunikacją, z drugiej jednak nie dominują w żadnej kategorii. To modele przewidywalne, ale rzadko najlepsze.

Natomiast polskie modele, takie jak PLLuM czy Bielik, wypadają słabiej. Co ważne, problemem nie jest brak znajomości języka. Problemem jest jakość odpowiedzi. Są krótsze, mniej rozwinięte i często wymagają doprecyzowania. W efekcie użytkownik musi wykonać dodatkową pracę, żeby uzyskać satysfakcjonujący wynik.

Jeśli chodzi o zastosowania, AI najlepiej radzi sobie w prostych zadaniach. Pisanie maili, tworzenie treści czy porządkowanie informacji to obszary, w których większość modeli działa poprawnie. Różnice istnieją, ale nie są kluczowe.

Sytuacja jednak zmienia się w momencie, gdy pojawia się potrzeba precyzji. W zadaniach prawnych, podatkowych czy wymagających dokładnej wiedzy modele zaczynają zawodzić. Czasem upraszczają odpowiedzi, a czasem generują informacje, które brzmią wiarygodnie, ale nie są prawdziwe. I tu właśnie pojawia się największe ryzyko.

Ciężarówka firmy DPD/ Openverse
Biznes / News / Społeczeństwo

Gdy sztuczna inteligencja przeklina własną firmę. Jak DPD musiało wyłączyć swojego chatbota po skandalu z klientem

Okazuje się, że kluczową różnicą między modelami okazuje się stabilność. Najlepsze systemy utrzymują wysoki poziom w większości zadań. Słabsze działają nierówno – potrafią odpowiedzieć dobrze, by chwilę później popełnić wyraźny błąd. Dla użytkownika to oznacza brak przewidywalności.

Ranking nie wskazuje modelu idealnego. Pokazuje raczej, które narzędzia najrzadziej zawodzą. I to właśnie one wygrywają.

Na koniec warto doprecyzować rolę polskich modeli. Nie konkurują dziś bezpośrednio z globalnymi pod względem jakości odpowiedzi. Natomiast mogą mieć znaczenie tam, gdzie liczy się kontrola danych, zgodność z regulacjami i integracja z administracją.

AI nie jest źródłem wiedzy, tylko narzędziem. Działa dobrze w określonych zastosowaniach, ale wymaga kontroli. Im lepiej użytkownik to rozumie, tym większą ma z niej korzyść.


Źródło: https://jelesnianski.pl/

Bartek Kwiryń avatar
Bartek Kwiryń

Zostaw odpowiedź

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *