AI poległo w bibliotece. Uniwersytet Warszawski szuka ludzi do odczytywania rękopisów

Skan notatek prof. Wacława Borowego. Źródło: Biblioteka Uniwersytecka w Warszawie. Gabinet Rękopisów

Sztuczna inteligencja nie radzi sobie z unikatowymi pismami. Rusza akcja TranskriBUW dla wolontariuszy.


Okazuje się, że w niektórych obszarach algorytmy sztucznej inteligencji całkowicie zawodzą. Wówczas wciąż niezbędny okazuje się ludzki czas, cierpliwość oraz wnikliwość. Serwis Nauka w Polsce donosi, że Biblioteka Uniwersytecka w Warszawie (BUW) ogłosiła wyjątkową akcję i zaprasza chętnych wolontariuszy do udziału w projekcie TranskriBUW. Jego głównym celem jest rozszyfrowywanie i przepisywanie cennych, historycznych manuskryptów, z którymi maszyny nie potrafią sobie poradzić. Dzięki temu każdy pasjonat historii może mieć bezpośredni, namacalny kontakt z unikatowymi obiektami historycznymi, nawet nie posiadając wykształcenia kierunkowego.


Bibliotekarz jako detektyw i badacz przeszłości

Praca nad dawnymi dokumentami to ogromne wyzwanie logistyczne i naukowe. Okazuje się, że tradycyjne metody katalogowania wymagają twardych kompetencji akademickich.

„Żeby właściwie skatalogować obiekt, bibliotekarz musi być badaczem” – powiedziała w rozmowie z serwisem Nauka w Polsce Agnieszka Kościelniak-Osiak, wicedyrektorka BUW.

Spotkanie z rękopisem – Impromptu As-dur Fryderyka Chopina. Fot. Jakub Mozolewski /Muzeum Fryderyka Chopina
Gwiazdy / Muzyka / News

Dwa Chopiny w jednym. Jak polscy badacze odkryli nowe melodie w rękopisie Ballady f-moll

Wiceszefowa instytucji wyjaśniła, że zadanie to bywa niezwykle skomplikowane, ponieważ mnóstwo archiwalnych dokumentów ze zbiorów biblioteki nie posiada tak oczywistych elementów jak chociażby strona tytułowa z nazwiskiem autora i datą wydania. Przykładem są tzw. zbiory specjalne, do których zaliczają się m.in. dawne dokumenty królewskie. W ich przypadku eksperci muszą ręcznie analizować i rozpoznawać typy pisma, odciski pieczęci czy specyficzną tytulaturę epoki.

„To w oparciu o te dane określamy często odbiorcę i nadawcę, umiejscawiamy dany dokument w czasie i przestrzeni, i dopiero wtedy możemy jego opis umieścić w naszych katalogach. Staje się on wówczas wyszukiwalny dla badaczy. Rozpoznanie zawartości naszych zasobów wymaga więc ogromnej wiedzy i czasu, a my mamy do skatalogowania dziesiątki tysięcy obiektów” – zaznaczyła wicedyrektorka.


Trudna historia i zbiory bez nazwy

Sytuacja badawcza Gabinetu Rękopisów BUW jest wyjątkowo skomplikowana ze względu na tragiczne wydarzenia z przeszłości. Podczas II wojny światowej warszawska biblioteka straciła ponad 90 procent swoich bezcennych rękopisów. Dopiero od 1945 roku zbiory tego rodzaju zaczęły być mozolnie odbudowywane i gromadzone na nowo.

Do archiwów trafiają przede wszystkim spuścizny po zmarłych naukowcach związanych z Uniwersytetem Warszawskim, ale nie tylko. Biblioteka posiada również fascynujące artefakty kultur orientalnych, dokumenty z Afryki oraz Azji. Często są to materiały tak rzadkie, że dawni badacze nie pozostawili o nich absolutnie żadnych notatek. Zdarzają się sytuacje, w których pracownicy BUW na pierwszy rzut oka nie wiedzą nawet, w jakim alfabecie dany dokument został w ogóle sporządzony.


Dlaczego sztuczna inteligencja przegrywa z historią?

Wiele osób zadaje sobie pytanie, dlaczego w dobie potężnych modeli językowych i zaawansowanego rozpoznawania obrazu technologia przegrywa ze starym papierem. Organizatorzy akcji TranskriBUW tłumaczą to w prosty sposób: współczesne systemy informatyczne mają bardzo ograniczone zastosowanie przy unikatowych, pojedynczych dokumentach.

Aby skutecznie wytrenować algorytmy sztucznej inteligencji, potrzeba tysięcy powtarzalnych przykładów oraz gotowych translacji, których w przypadku pojedynczych, historycznych manuskryptów po prostu nie ma na świecie. Ogrómnym problemem dla programów komputerowych okazuje się nawet dawna, pisana odręcznie szwabacha – specyficzny, gotycki font, który dla ludzkiego oka po krótkim treningu staje się czytelny, ale dla maszyn stanowi barierę nie do przejścia.


Automaton Vocis – wirtualny Polak z XV wieku. Projekt Biblioteki Narodowej i SEC Newgate CEE łączy sztuczną inteligencję z językiem średniowiecznej polszczyzny.
Biznes / Kultura i Sztuka / News / Technologie

Jak wytrenować średniowiecznego bota? Biblioteka Narodowa uruchomiła infolinię po staropolsku

Pikantne akta rozwodowe i Fryderyk Wielki na warsztacie

Niektóre z przygotowanych zadań nie wymagają specjalistycznej wiedzy lingwistycznej, a jedynie wolnego czasu i zaangażowania. Obecnie wolontariusze mierzą się z niezwykłym rysunkiem mikrograficznym z 1762 roku autorstwa Emanuela Listnaua. Przedstawia on portret konny króla Prus Fryderyka II Wielkiego. Co ciekawe, wizerunek władcy został w całości stworzony z malutkich napisów, które tworzą kontury obrazu. Pomoc pasjonatów pozwoli odczytać ten nietypowy tekst napisany odręczną szwabachą w języku niemieckim.

W zasobach czekających na odczytanie znajdują się również dawne plany bitwy pod Pragą z 1757 roku, a także historyczne projekty architektoniczne przebudowy Pałacu Saskiego w Warszawie.

Największe emocje i zainteresowanie budzą jednak akta rozwodowe z przełomu XVIII i XIX wieku. Jak przyznają sami koordynatorzy, dokumenty te są napisane wyjątkowo barwnym, soczystym językiem.

„To opisy wzajemnych oskarżeń małżonków i opinie przyjaciółek rodziny. Dla badaczy to kopalnia wiedzy o obyczajowości” – podkreśliła Agnieszka Kościelniak-Osiak.

To nie pierwsza taka akcja biblioteki. Dwa lata temu, przy okazji rocznicy Powstania Warszawskiego, społeczność wolontariuszy pracowała nad prywatnymi notatkami prof. Wacława Borowego. Wówczas z 95 trudnych stron rękopisu udało się wspólnymi siłami przepisać aż 55 stron.

Schadenfreude, jako zjawisko psychologiczne w badaniach naukowych/ Openverse
Społeczeństwo

Dlaczego cieszy nas cudze nieszczęście?


Zasada 1:1 – jak dołączyć do projektu TranskriBUW?

Urszula Szwed-Strych z BUW, która na co dzień zajmuje się koordynacją tego przedsięwzięcia, wyjaśnia, że do transkrypcji celowo wybierane są takie materiały, które osoby bez zaplecza czysto naukowego są w stanie realnie rozszyfrować. W pracy wolontariusza kluczowa jest jedna żelazna reguła.

„Najważniejsza jest zasada „1:1”. Jeśli autor dokumentu zrobił błąd ortograficzny albo coś skreślił, transkrypcja musi to uwzględniać” – zaznaczyła koordynatorka.

Obecnie społeczność TranskriBUW liczy około 240 zaangażowanych osób z całej Polski. Wszystkie bieżące prace, wymiana doświadczeń oraz wzajemna pomoc przy trudniejszych słowach odbywają się w zamkniętej grupie projektu w mediach społecznościowych oraz na dedykowanej platformie internetowej BUW. Do akcji w każdej chwili może dołączyć każdy, kto chce poczuć dreszcz emocji towarzyszący odkrywaniu nieznanych faktów z historii.


Źródło: naukawpolsce.pl

Natalia Zagrzebska avatar
Natalia Zagrzebska

Zostaw odpowiedź

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *