lut
18

Nauczyć komputer języka polskiego

Złożoność języka polskiego zdecydowanie utrudnia prace nad rozwojem tłumaczeń maszynowych, czyli wykonywanych za pomocą automatycznych algorytmów, bez ingerencji człowieka. Bardzo dobrze to rozumiemy i wiemy też, że pracy dla profesjonalnego biura tłumaczeń jeszcze długo nie zabraknie.

Jednak ten sam czynnik powoduje, że znacznie trudniej jest mechanicznie przeszukiwać internet pod kątem zadanych fraz. Prace nad rozwiązaniem tej kwestii podejmują m.in. krakowscy naukowcy, którzy próbują nauczyć komputer naturalnego języka polskiego. W jakim celu? Polecam artykuł z serwisu Nauka w Polsce autorstwa Ludwiki Tomali.nauczyć komputer języka polskiego


Polscy naukowcy uczą komputery języka naturalnego

Autor: Ludwika Tomala, PAP – Nauka w Polsce

Dzięki pracom polskich lingwistów komputerowych policja jeszcze w tym roku będzie posługiwała się programem, który ułatwi wykrywanie przestępstw za pośrednictwem Internetu. O tym, jak nauczyć komputer języka naturalnego mówi PAP prof. Wiesław Lubaszewski z Katedry Lingwistyki Komputerowej UJ oraz z Katedry Informatyki AGH.

Program, który opracowali polscy badacze będzie znacznie lepiej uwzględniał znaczenie słów w języku polskim niż tradycyjne wyszukiwarki. Umożliwi sprawniejsze niż dotychczas monitorowanie informacji w Internecie oraz precyzyjne wyszukiwanie tekstów. Będzie rozpoznawał w tekście nie tylko słowa, ale częściowo również ich kontekst, po to by stwierdzić, czy tekst rzeczywiście zawiera poszukiwaną informację. Innymi słowy, program potrafi odróżnić tekst o np. kocie od tekstu, w którym wyraz „kot” pojawił się przypadkowo.

Programem zainteresowała się polska policja, która chce za jego pomocą wyszukiwać teksty mogące świadczyć o przestępstwie. W grudniu umowę licencyjną z Komendą Główną Policji podpisał rektor Akademii Górniczo-Hutniczej.

„Jak ktoś chce coś ukryć, jakąś informację, to najlepiej nie w szufladzie, ale w Internecie” – uważa prof. Lubaszewski. Jego zdaniem, żeby dotrzeć do pożądanej informacji, użytkownik musi wiedzieć, jak jej szukać. Wyszukiwarka nie może zgadnąć, w jakim celu człowiek przeszukuje Internet i co dokładnie chce znaleźć, więc na zadane pytanie zwraca tysiące odpowiedzi, które szukającego wcale nie interesują.

Na przykład, jeśli szukamy dobrego zakładu krawieckiego, to musimy wpisać w wyszukiwarce „zakład krawiecki”, a później szukamy zakładu dobrego, otwierając każdą znalezioną stronę po to, by przeanalizować komentarze dołączone do strony zakładu przez jego klientów.

Polski program pozwala zautomatyzować opisane czynności, jednak użytkownik przed rozpoczęciem wyszukiwania musi określić, co jego zdaniem znaczy „dobry”. Ma to umożliwić sprawniejszą komunikację człowieka z maszyną i dokładniejsze przeszukiwanie treści w Internecie.

Powstanie takiego programu umożliwił rozwój polskich badań nad lingwistyką komputerową, której zadaniem jest „uczenie” komputerów języka naturalnego, czyli takiego, jakim ludzie porozumiewają się między sobą. Badania takie mają wielkie znaczenie nie tylko dla sprawnego przeszukiwania zasobów, ale również dla tłumaczeń z jednego języka na drugi czy dla tworzenia interfejsu, w którym z komputerem porozumiewalibyśmy się mówiąc do niego.

Prof. Lubaszewski wyjaśnia, że język naturalny jest językiem symbolicznym.

„Napis czy ciąg dźwięków prowadzi nas do znaczenia, a znaczenie ma dla nas sens dzięki wiedzy o świecie – tłumaczy. – Jeśli widzimy napis +spaniela+ wiemy, że chodzi o psa. Człowiek potrafi taką informację szybko wyłowić. A komputer niekoniecznie”.

Jak wyjaśnia badacz, komputer musi najpierw odszukać (w swoim słowniku fleksyjnym), że słowo „spaniela” jest reprezentacją słowa spaniel. Potem komputerowi potrzebne są słowniki semantyczne lub ontologie, a więc narzędzia łączące słowa z wiedzą o świecie. Wyjaśnianiu słów komputerom służą np. słowniki semantyczne, w których opisane są znaczenia słowa i jego relacje z innymi słowami: np. że spaniel to okaz psa, że może się łasić, machać ogonem, szczekać itp. Ontologia uzupełni ten opis o informację, że spaniel to pies myśliwski itp.”.

Ponieważ słowniki semantyczne dla języka polskiego nie są jeszcze gotowe, zwykła wyszukiwarka nie umie np. rozróżniać w przeszukiwanych stronach wyrazów homonimicznych. Dlatego jeśli wpiszemy słowo „psa”, wśród odpowiedzi znajdziemy nie tylko teksty o psach, ale i o antygenie „PSA”, czy o producencie samochodów, którego nazwa ma taki skrót.

W językach komputerowych każdy symbol musi być dokładnie zdefiniowany jednoznacznie, inaczej cały system nie mógłby działać poprawnie. Symbole powinny też być jednoznacznie powiązane z pewnymi operacjami, nie ma tam miejsca na interpretację symboli. „Jeśli komputer zaczyna coś interpretować, pojawia się taki niebieski ekran – komputer się zawiesza. A nasza wypowiedź w języku naturalnym domaga się interpretacji” – wyjaśnia Lubaszewski.

Zdaniem uczonego, badania nad modelami komputerowymi w języku polskim są znacznie słabiej rozwinięte niż np. w języku angielskim. W Ameryce badania nad lingwistyką komputerową rozpoczęto już w latach 50. i prowadziły je ogromne grupy badawcze. W Polsce rozpoczęto badania znacznie później i nie były one aż tak intensywne, dlatego język nie jest aż tak dobrze zbadany.

Naukowiec wyjaśnia, że język polski ma na przykład mocno rozwiniętą fleksyjność, co wymaga dodatkowych badań. Na przykład w polskim słowniku fleksyjnym istnieje szacunkowo 120 tys. wyrazów, z czego 11 tys. wyrazów to wyjątki. Już opracowanie takiego słownika było ogromnym wyzwaniem dla badaczy. Ale to dopiero początek. W słownikach semantycznych trzeba zgromadzić specyfikę użycia każdego z polskich wyrazów. Jest to niemal niemożliwe. W dodatku dla każdego języka trzeba tworzyć osobny słowik semantyczny.

„Tylko część relacji syntagmatycznych (czyli np. dotyczących łączliwości wyrazów – PAP) można dosłownie przetłumaczyć. Narzędzia słownikowe musimy sobie zrobić sami. To wymaga ogromnych badań, których nie da się w pełni zalgorytmizować” – mówi Lubaszewski.

Na razie w krakowskich pracowniach UJ i AGH powstał już słownik fleksyjny języka polskiego dla komputerów i trwają prace nad słownikiem semantycznym. Zgromadzone dotychczas relacje między wyrazami posłużą do semantycznego wyszukiwania tekstów w programie, który stosowany będzie od tego roku przez policję.

Źródło: http://www.naukawpolsce.pl/palio/html.run?_Instance=cms_naukapl.pap.pl&_PageID=1&s=szablon.depesza&dz=stronaGlowna&dep=379810&data=&lang=PL&_CheckSum=1208287153

|