Marzena Karpińska z Microsoftu, współautorka benchmarku ONERULER, tłumaczy, że badanie nie dowodzi, iż język polski jest najlepszy do promptowania.
Media dały się ponieść
„Polski lepszy od angielskiego w rozmowie z AI”, „dopiero AI nas doceniła!”– grzmiały w ostatnich tygodniach od prawa do lewa tytuły w polskich mediach. Sensacyjne wyniki badań rozchodziły się błyskawicznie: polskie portale technologiczne, blogi i media społecznościowe powoływały się na badanie Microsoftu, według którego język polski miał być najlepszy do promptowania, czyli tworzenia poleceń dla modeli sztucznej inteligencji.
Problem w tym, że nic takiego nie wynikało z pracy naukowców. W rozmowie z serwisem naukawpolsce.pl współautorka badania, Marzena Karpińska z Microsoftu, jednoznacznie stwierdziła, że wyniki zostały błędnie zinterpretowane.
„Media obiegła wiadomość, że ‘język polski jest najlepszy do promptowania’. To nie jest wniosek z naszych badań” –
– powiedziała Karpińska, dodając, że w rzeczywistości chodziło tylko o test zdolności modeli do przetwarzania długich tekstów, a nie o porównanie skuteczności komunikacji w różnych językach. I tylko tyle.
O co naprawdę chodziło w benchmarku ONERULER
ONERULER to nowy, wielojęzyczny benchmark opracowany przez badaczy z Microsoftu i kilku ośrodków akademickich. Jego celem było sprawdzenie, jak dobrze modele językowe – takie jak GPT-4, Claude czy Gemini – radzą sobie z przeszukiwaniem bardzo długich tekstów i utrzymywaniem logicznego kontekstu.
Zadania przypominały test z czytania ze zrozumieniem: w książce umieszczano krótkie zdanie z konkretną informacją, a model miał je odnaleźć wśród tysięcy innych. W innym wariancie tekst w ogóle nie zawierał odpowiedzi – wtedy poprawną reakcją było stwierdzenie: „nie wiem”. Dla człowieka to banalne, ale dla sztucznej inteligencji okazało się zaskakująco trudne.
Badanie objęło 26 języków. W przypadku polskiego dane pochodziły z trzeciego tomu „Nocy i dni” Marii Dąbrowskiej, dla angielskiego użyto „Małych kobietek”, dla hiszpańskiego „Don Kichota”, a dla niemieckiego „Czarodziejskiej góry”. Taki wybór nie był przypadkowy – naukowcy musieli korzystać z tekstów, do których wygasły prawa autorskie, by mogli je swobodnie analizować.
Marzena Karpińska wyjaśniała w rozmowie z serwisem naukawpolsce.pl, że to już samo w sobie pokazuje, jak trudno porównywać wyniki między językami:
„Wykorzystywaliśmy teksty, do których wygasły prawa autorskie. Dla każdego języka była więc inna książka, a to oznacza inne style, długość i poziom trudności. Jeśli model lepiej poradził sobie z Dąbrowską niż z Alcott, nie świadczy to o wyższości polszczyzny, tylko o różnicach w materiale.”
Jej zdaniem właśnie te różnice w treści mogły wpłynąć na to, że polski wypadł w ONERULER-ze odrobinę lepiej. Benchmark nie badał jednak „łatwości promptowania” ani nie miał wskazać „najlepszego języka dla AI” – mierzył jedynie, jak modele zachowują się w długim kontekście.
Czytaj też w Fakty Plus – Jak wytrenować średniowiecznego bota? Biblioteka Narodowa uruchomiła infolinię po staropolsku
Dlaczego wynik Polski był wyższy
W zestawieniu końcowym modele rzeczywiście osiągnęły nieco lepsze wyniki w języku polskim niż w angielskim czy niemieckim. Różnice były jednak minimalne i nieprzewidziane w metodologii. Autorzy badania nie doszukiwali się w nich żadnego głębszego znaczenia.
Marzena Karpińska podkreślała, że w ONERULERze badano przede wszystkim zdolność modeli do utrzymania kontekstu. Nie testowano zrozumienia języka ani jakości tzw. promptów.
„W tym badaniu jest tak dużo różnych czynników, że na pewno nie możemy na jego podstawie stwierdzić, że polski jest najlepszym językiem do promptowania” –
– zaznaczyła badaczka.
Dlaczego więc modele wypadły odrobinę lepiej w polskich testach? Klucz tkwi w samym materiale. Każdy język w badaniu reprezentowała inna książka – dla polskiego był to trzeci tom „Nocy i dni” Marii Dąbrowskiej, dla angielskiego „Małe kobietki” Louisy May Alcott, dla hiszpańskiego „Don Kichot” Miguela de Cervantesa, a dla niemieckiego „Czarodziejska góra” Thomasa Manna.
To oznacza, że modele nie przeszukiwały tych samych treści, lecz zupełnie różne teksty – o odmiennej strukturze i poziomie złożoności. „Noce i dnie” mogły okazać się dla modeli łatwiejszym materiałem, bo są napisane prostszym językiem, mają bardziej linearną narrację i mniej wielowątkową konstrukcję niż „Czarodziejska góra” czy „Don Kichot”. Dąbrowska operuje realistycznym opisem życia codziennego, bez nadmiaru symboliki, metafor i historycznych odniesień, które mogłyby komplikować analizę kontekstu.
Natomiast „Czarodziejska góra” to tekst gęsty i filozoficzny, pełen dialogów i abstrakcyjnych refleksji, a „Don Kichot” – dzieło archaiczne, bogate w ironię, aluzje literackie i dygresje. Modele językowe nie interpretują znaczeń w sensie literackim – przeszukują tekst statystycznie. Dlatego to nie polski język okazał się łatwiejszy dla AI, lecz sama książka, która jest bardziej przewidywalna w strukturze i słownictwie.
Nie pierwsze i nie ostatnie badanie
Benchmark ONERULER nie jest jedynym testem, który sprawdza, jak sztuczna inteligencja radzi sobie z różnymi językami i strukturą tekstu. Wcześniej podobne analizy przeprowadzali badacze z Google Research i współpracujących ośrodków akademickich, tworząc projekty BIG-Bench i BIG-Bench Hard.
BIG-Bench Hard (BBH) był rozwinięciem wcześniejszego, szerokiego benchmarku BIG-Bench, który obejmował setki zadań poznawczych i językowych. Naukowcy chcieli sprawdzić, czy modele językowe faktycznie rozumieją to, co piszą, czy jedynie powtarzają statystyczne wzorce z danych, na których zostały wytrenowane. W zestawie znalazły się m.in. zadania z rozumowania logicznego, tłumaczenia idiomów, wykrywania ironii, rozwiązywania równań matematycznych czy uzupełniania fragmentów kodu komputerowego.
Wyniki pokazały duże ograniczenia modeli. Sztuczna inteligencja bardzo dobrze radziła sobie z zadaniami o jasnej strukturze – tam, gdzie odpowiedź można było sprawdzić obiektywnie, np. w matematyce czy programowaniu. Jednak w testach wymagających rozumienia kontekstu, emocji i intencji modele osiągały znacznie słabsze wyniki – w niektórych przypadkach poprawność odpowiedzi nie przekraczała 40 proc..
Badacze zauważyli też, że zwiększanie liczby parametrów modeli poprawia płynność wypowiedzi, ale nie wpływa istotnie na ich zdolność do logicznego rozumowania. Większy model nie znaczy więc „mądrzejszy”. Podsumowali to krótko: modele językowe potrafią mówić płynnie, ale nie rozumieją, co mówią.
Równolegle inne zespoły prowadziły badania nad wielojęzycznością modeli. Analizy wykazały, że modele osiągają najwyższą skuteczność w językach, dla których mają największe zbiory danych – głównie angielskim, chińskim i hiszpańskim. W językach mniej reprezentowanych, takich jak polski, fiński czy hebrajski, wyniki potrafią być niższe o 20–30 punktów procentowych.
W tym kontekście ONERULER jest naturalnym uzupełnieniem wcześniejszych prac. Podczas gdy BIG-Bench Hard badał, czy modele potrafią myśleć i wnioskować, a analizy Meta AI pokazywały, jak różni się skuteczność między językami, projekt Microsoftu sprawdzał zdolność modeli do utrzymania sensu w bardzo długim tekście. Wszystkie te badania prowadzą do podobnego wniosku: współczesna sztuczna inteligencja potrafi tworzyć zdania, które brzmią jak ludzkie, ale nie rozumie świata w sposób ludzki.
Czy sztuczna inteligencja ma własny język?
W tle tej dyskusji pojawia się inne, bardziej niepokojące pytanie: czy sztuczna inteligencja zaczyna tworzyć własny język komunikacji?
Już w 2022 roku badacze z Uniwersytetu Stanforda zauważyli, że gdy modele językowe komunikują się ze sobą – na przykład w symulacjach negocjacji – potrafią wytworzyć skróty i kody, które nie mają znaczenia w żadnym znanym języku naturalnym. Rok później podobne zjawisko opisali naukowcy z Berkeley: dwa modele GPT zaczęły używać ciągów znaków, których ludzie nie potrafili zinterpretować, ale które pozwalały im szybciej wymieniać informacje.
Zjawisko to nazwano emergentnym językiem AI. Dla algorytmów jest to optymalizacja: uproszczony kod zamiast złożonej składni. Dla ludzi – sygnał, że zrozumienie działania modeli może się z czasem stać trudniejsze niż ich trenowanie.
To także odpowiedź na pytanie, dlaczego nie ma sensu mówić o „najlepszym języku dla AI”. Modele nie myślą ani po polsku, ani po angielsku. Każde polecenie zamieniają w ciąg liczb – wektorów znaczenia. Różnice w wynikach między językami to efekt danych, a nie samego języka.
Czego naprawdę uczy nas ONERULER
Najważniejszy wniosek z badania jest banalny, ale istotny: modele językowe wciąż nie są tak niezawodne, jak się wydaje. Nie potrafią jeszcze w pełni „rozumieć” długich kontekstów, gubią się w szczegółach i często wymyślają brakujące informacje.
Karpińska podkreśla, że użytkownicy powinni zachować rozsądek, zwłaszcza gdy korzystają z AI do analizy dokumentów czy raportów. Modele potrafią generować bardzo przekonujące, lecz fałszywe streszczenia. Zamiast polegać na jednym narzędziu, warto weryfikować wyniki w kilku systemach i zadawać pytania kontrolne.
W praktyce – zamiast pytać „czy polski jest najlepszy dla AI?” – sensowniej zapytać, jak bezpiecznie korzystać z modeli, które wciąż uczą się rozumieć ludzki język.
ONERULER nie dowodzi żadnej „przewagi polskiego nad angielskim”. Pokazuje jedynie, że polski jest jednym z języków, w których modele potrafią działać skutecznie – ale w granicach błędu i przypadku.
To, co stało się z tym badaniem w mediach, to klasyczny przykład, jak łatwo uprościć złożoną analizę do chwytliwego hasła. Microsoft nie wskazał najlepszego języka do promptowania, tylko ograniczenia współczesnych modeli.
A jeśli sztuczna inteligencja naprawdę tworzy już własny język, to w tej rozgrywce nie chodzi o to, który język wygrywa, ale czy człowiek nadal nadąża za rozmową.
Źródła:
