KWJP: Korpus współczesnego języka polskiego (2024)

Forma dostępu: online, https://kwjp.ipipan.waw.pl

Wymogi techniczne: częściowy dostęp bez konieczności założenia konta i logowania się

Forma wydania elektronicznego: teksty wtórnie lub powtórnie wydane elektronicznie.

Zawartość: korpus zawiera teksty powstałe w latach 2011–2020; jego wersja pełna obejmuje miliard słów, a zrównoważona – milion. Ze względu na datowanie zgromadzonych w nim zasobów językowych KWJP stanowi kontynuację NKJP, w którego zbiorach najnowsze materiały pochodzą z roku 2011. Projekt został zrealizowany w Instytucie Podstaw Informatyki PAN pod kierownictwem Małgorzaty Marciniak i jest określany przez autorów jako „wielki korpus referencyjny", dlatego też znalazły się w nim tylko typowe teksty prasowe i literackie, czytane masowo, odzwierciedlające „przyzwyczajenia językowe przeciętnych użytkowników polszczyzny" i dokumentujące zróżnicowanie „piśmiennictwa polskiego w różnych obszarach tematycznych i gatunkowych" (zob. https://kwjp.ipipan.waw.pl/overview).

Możliwości i ograniczenia korzystania z zasobów: możliwość bardzo zaawansowanego przeszukiwania bazy. Wyszukując dane językowe, możemy samodzielnie utworzyć zapytanie, na przykład o wszystkie formy fleksyjnego jakiegoś dowolnego leksemu: [lemma="dom"] lub [base="dom"]. Możemy również skorzystać z konstruktora zapytań, podając interesujące nas atrybuty segmentu jak: cechy podstawowe (forma tekstowa, forma podstawowa itp.), znaczniki (części mowy itp.), znaczniki wielosegmentowe (jednostka nazewnicza, jednostka składniowa), cechy morfologiczne (aspekt, przypadek, stopień itp.) oraz dodatkowe cechy (akomodacyjność, aglutynacyjność itp.). Możliwe jest także przeszukiwanie korpusu według metadanych typu: autor, tytuł, redaktor, źródło oraz data, rok miesiąc wydania czy wydawca itp. Dodatkowo istnieje opcja grupowania wyników, która dostępna jest jedynie dla zalogowanych użytkowników. Jak wyjaśniają autorzy KWJP: jeśli „interesuje nas, z jakimi wyrazami najczęściej sąsiadują wyszukiwane słowa lub konstrukcje, jaki kontekst jest dla nich charakterystyczny […], otwieramy w wyszukiwaniu opcję Grupowanie wyników, zaznaczamy Grupuj, wybieramy kategorię, według której chcemy te wyniki uporządkować frekwencyjnie" (zob. https://kwjp.ipipan.waw.pl/overview). KWJP generuje też listy frekwencyjne słów i połączeń wyrazowych w kilku wariantach, na przykład w zależności od wyboru całego zasobu lub danego jego podkorpusu (fikcja, fakt, publicystyka) bądź zamieszczonej na liście formy (hasłowej czy tekstowej; zob. https://kwjp.ipipan.waw.pl/lists/doc/about/). Ponadto dzięki zastosowanej w KWJP funkcji analizy składniowej można zwizualizować drzewa składniowe, klikając w pięcioramienny symbol znajdujący się na końcu każdej konkordancji, po prawej stronie wyników wyszukiwania.

secretcats.pl - tworzenie stron internetowych