Wpisy

Czy polska wyszukiwarka semantyczna wyprze Google.pl?

To by było coś! Polscy naukowcy pracują nad wyszukiwarką, która stanowić miałaby konkurencję dla Google.pl. Wrocławscy uczeni buńczucznie zapewniają, że plan jest realny, a Google też było kiedyś „tylko projektem naukowym”. Walka toczy się o palmę pierwszeństwa na polu wyszukiwania semantycznego, co wymaga krótkiego wyjaśnienia.

Wyszukiwanie semantyczne to takie trochę złoty Graal wyszukiwarek – czyli dostarczanie użytkownikom najwyższej jakości wyników wyszukiwania na zapytania nie tylko dzięki słowom kluczowym, ale przede wszystkim na podstawie badania i komputerowego rozróżniania relacji między słowami. Google sprawę zna i głowi się nad tym od dawna – najlepszym tego dowodem są kolejne algorytmy, jak choćby Koliber (ang. Hummingbird) – który zdaniem wielu jest krokiem właśnie w stronę wyszukiwania semantycznego. Wszystko po to, żeby wyniki wyszukiwania były jak najbardziej trafione i precyzyjne, po prostu mądrzejsze.

Co to znaczy dla nas, twórców stron? Znaczy to tyle, że Google patrzy i srogo ocenia nieetyczne działania SEO, a bazowanie na słowach kluczowych jest co najmniej ryzykowne – jedyne co nam zostaje to troska o jakość i różnorodność publikowanych treści. Takie ukierunkowanie działań sugerowały już zresztą poprzednie algorytmy: Panda i Pingwin. Cóż, nikt nie mówił, że będzie łatwo.

Co jednak w związku z tym kombinują polscy naukowcy? Nekst – tak ma się nazywać nowa polska wyszukiwarka internetowa. Pracują nad nią specjaliści od sztucznej inteligencji z Politechniki Wrocławskiej, lingwiści z Uniwersytetu Wrocławskiego oraz naukowcy Polskiej Akademii Nauk. Jak zapewniają – Nekst ma rozumieć znaczenie słów. W praktyce ma to wyglądać tak, że użytkownik wpisze pytanie, które program zrozumie i wybierze polskie teksty z internetowego zasobu, które będą najlepiej na nie odpowiadały. Na tę odpowiedź będziemy musieli chwilę poczekać – od kilkunastu sekund do kilku minut, czego przyczyną są zrozumiałe ograniczenia obliczeniowe.

Prace nad wyszukiwarką zaczęły się w 2010 roku, premiera zapowiedziana jest na wiosnę. Okazją do debiutu i udostępnienia Nekstu użytkownikom ma być zakończenie skanowania połowy polskojęzycznych dokumentów dostępnych w internecie. Sprawa jest poważna, bo w sumie jest ich około miliarda. Najbardziej optymistyczny plan zakłada zeskanowanie całości i bieżące aktualizowanie danych oraz powstanie wyszukiwarki obrazów.

Podstawą wyszukiwarki ma być Słowosieć – twór wcale nie nowy, doceniany przez samego Google i wykorzystywany przez Google Translator. Pod tą do bólu polską nazwą kryje się WordNet języka polskiego, czyli rodzaj sieci semantycznej, która odzwierciedla jego system leksykalny: słowa, ich znaczenia i różnorodne relacje między nimi. Wordnety służą automatycznej analizie tekstu.

Aktualna Słowosieć 2.0 stworzona została przez zespół badaczy z Wydziału Informatyki i Zarządzania Politechniki Wrocławskiej. Debiutowała już niemal rok temu.  To pierwszy tak duży słownik języka polskiego, drugi co do wielkości WordNet na świecie, po słynnym Wordnecie z Princeton. Co oznacza „duży” w tym wypadku? Słowosieć tworzy pajęczynę ponad 106 tys. wyrazów, 158 tys. różnych znaczeń – połączonych ponad 440 tys. relacji.

Czyli jest niezła baza do pracy nad wyszukiwarką, co będzie dalej? Zobaczymy i patriotycznie trzymamy kciuki.