PLWordnet (Słowosieć 4.2): Wielki relacyjny słownik semantyczny języka polskiego
(2023)

Forma dostępu: online, http://plwordnet.pwr.wroc.pl/wordnet/

Wymogi techniczne: pełny dostęp (bezpłatny na licencji wzorowanej na licencji Princeton WordNet) bez konieczności założenia konta i logowania się; istnieje także możliwość pobrania aktualnej wersji bazy (należy skorzystać z formularza na stronie http://plwordnet.pwr.wroc.pl/wordnet/download).

Rodzaj wydania elektronicznego: powtórne wydanie elektroniczne zmodyfikowanej, zaktualizowanej i powiększonej bazy danych w jej wcześniejszych wersjach (pierwsza wersja Słowosieci została udostępniona w internecie w 2009 r.; zob. poniżej inne wydania elektroniczne).

Zawartość: Słowosieć (z ang. wordnet) to leksykalna sieć semantyczna w formie elektronicznego tezaurusa dla języka polskiego, opracowywana obecnie w ramach konsorcjum CLARIN-PL przez badaczy z CentrumTechnologii Językowych CLARIN-PL pod kierownictwem Macieja Piaseckiego z Politechniki Wrocławskiej. Notuje ona 194 tys. rzeczowników, czasowników, przymiotników i przysłówków, 294 tys. znaczeń oraz ponad 700 tys. relacji (zob. http://plwordnet.pwr.wroc.pl/wordnet/stats). Polska Słowosieć jest wzorowana na projekcie Princeton WordNet dla języka angielskiego (ale różni się od niego budową, m.in. ze względu na specyfikę polszczyzny; zob. https://wordnet.princeton.edu/) i powstaje półautomatyczną metodą, którą stosuje się do ogromnych korpusów języka polskiego. 

Ideą WordNetu jest zbieranie danych na temat semantyki wyrazów za pomocą siatki znaczeń opartej na relacjach pomiędzy poszczególnymi wyrazami (Hajnicz 2011: 29–42). Innymi słowy: „Poprzez Słowosieć należy rozumieć sieć semantycznych relacji leksykalnych dla języka polskiego, w której znaczenie jednostki leksykalnej jest opisywane poprzez umieszczenie tej jednostki w sieci powiązań wyrażających relacje znaczeniowe, w jakie wchodzi ona z innymi jednostkami" (Dziob, Łazarewicz 2011: 34). Tak więc WordNet jest zorganizowany nie wokół leksemów, lecz wokół pojęć, a jego podstawę opisu stanowią relacje semantyczne: relacje synsetów¹ (między zbiorami synonimów, np. hiponimia, hiperonimia, meronimia, holonimia, fuzzynimia, bliskoznaczność, instancja), relacje jednostek leksykalnych (między znaczeniami, np. relacje o charakterze derywacyjnym typu zawieranie roli – subiektu, narzędzia, wytworu itd.) oraz relacja synonimii. 

Ponadto w ramach artykułu hasłowego podaje się zawsze: (1) informację o części mowy, (2) domenę, do której należy dany wyraz w danym znaczeniu, (3) hiperonimy – ścieżkę do najwyższego hiperonimu. Mogą pojawić się także: (4) skrócona definicja wraz z (5) zaznaczeniem rejestru stylistycznego, (6) przykłady użyć oraz (7) annotacje emocjonalne (informacje o nacechowaniu danej jednostki leksykalnej, wartościowaniu i wyrażanych emocjach). Ze Słowosieci można również korzystać jak ze słownika dwujęzycznego, gdyż polska baza danych wordnetowych została połączona z bazą angielską. 

Ogólny opis omawianego tezaurusa jest dostępny na stronie głównej Słowosieci lub w witrynie CLARIN-PL (zob. https://clarin-pl.eu/index.php/slowosiec/), natomiast ze szczegółami koncepcji i opisu zapoznamy się jedynie, sięgając do literatury przedmiotu – zob. m.in. Maziarz i in. 2014, Kędzia i in. 2015, Dziob i in. 2019. Korzystanie z bazy może stanowić pewną trudność dla niezaawansowanego użytkownika nie ze względu na interfejs, ale z powodu ścisłości opisu i bariery terminologicznej. 

Możliwości i ograniczenia korzystania z zasobów: możliwość zaawansowanego przeszukiwania bazy. Oprogramowanie umożliwia zarówno wyszukiwanie haseł z poziomu okienka dialogowego po wpisaniu leksemu w formie słownikowej lub początkowych liter jakiegoś wyrazu, jak i podglądu siatki znaczeń Słowosieci – struktury relacji i synsetów za pomocą zaawansowanej aplikacji WordNetlLoom-Viewer: http://wordnet-viewer.clarin-pl.eu/ (wraz z opcją licznych filtrów przeszukiwania bazy i edycji danych; do pobrania w postaci plików źródłowych ze strony http://plwordnet.pwr.wroc.pl/wordnet/download).

Dodatkowe możliwości oprogramowania: liczne hiperłącza (zwłaszcza pozwalające na szybkie przejście do haseł powiązanych) i wizualizacje danych językowych. Istnieje także możliwość wyboru języka interfejsu (angielskiego lub polskiego) oraz pobrania ze plików źródłowych (po wypełnieniu formularza) oraz aplikacji WordNetlLoom-Viewer –zob. http://plwordnet.pwr.wroc.pl/wordnet/download.

¹ „Synset to zbiór wyrazów tej samej klasy gramatycznej, które mogą być wymieniane w określonym kontekście bez zmiany jego znaczenia, a więc reprezentują to samo pojęcie" (Hajnicz 2011: 29, za: Vossen (red.) 1998).

secretcats.pl - tworzenie stron internetowych