Forma dostępu: online, http://pcc.nlp.ipipan.waw.pl/query_corpus/
Wymogi techniczne: pełny dostęp bez konieczności założenia konta i logowania się.
Zawartość: korpus został opracowany przez Zespół Inżynierii Lingwistycznej IPI PAN¹, działający pod kierownictwem Macieja Ogrodniczuka. Baza zawiera zbiór tekstów, które anotowano ręcznie i opisano relacjami referencyjnymi i pomocniczymi „na potrzeby wielkoskalowej analizy nominalnych relacji referencyjnych w polszczyźnie" (zob. http://pcc.nlp.ipipan.waw.pl/overview).
Na korpus składa się ponad 0,5 mln słów, a dokładnie: „1745 tekstów „krótkich" — stanowiących pełne akapity próbek o długości ok. 300 tekstów, wybranych z NKJP z zachowaniem oryginalnej proporcji typów tekstów (495 866 segmentów)" oraz „21 tekstów „długich" — kompletnych tekstów wybranych z tzw. Korpusu „Rzeczpospolitej" i odpowiadających 7 działom tematycznym gazety (36 300 segmentów)" (zob. http://pcc.nlp.ipipan.waw.pl/overview, por. Ogrodiczuk 2019: 67–112).
Możliwości i ograniczenia korzystania z zasobów: możliwość zaawansowanego wyszukiwania danych w bazie. System umożliwia przeszukiwanie korpusu na dwa sposoby. Po pierwsze, można skorzystać z wyszukiwarki segmentów (zob. http://pcc.nlp.ipipan.waw.pl/query_corpus/), w której zapytanie formułuje się samemu za pomocą odpowiedniej składni zapytań (zbliżonej do składni zapytań w Poliqarpie w NKJP – zob. opis: 9.1.1. Wyszukiwarka Poliqarp (2008–2012)). Możemy wyszukać na przykład (zob. http://pcc.nlp.ipipan.waw.pl/manual#zapytania):
wszystkie formy fleksyjne danego leksemu, jak choćby rzeczownika Kraków, wpisując [base="Kraków"];
konkretną formę fleksyjną danego leksemu, wpisując ją bezpośrednio w okienko dialogowe: Polską lub stosując odpowiednią składnię: [orth="Krakowem"];
dane słowo niezależnie od jego zapisu w tekstach wielką czy małą literą: [orth_lc="polski"];
określone klasy i kategorie gramatyczne – zgodnie z przyjętymi skrótami w języku angielskim (zob. http://nkjp.pl/poliqarp/help/ense2.html#x3-30002.1) typu: [pos="subst"] lub za pomocą umieszczonego pod okienkiem dialogowym konstruktora zapytań, umożliwiającego wprowadzenie określonych atrybutów segmentu/segmentów jak: część mowy, liczba, rodzaj, aspekt itd.
Ze względu na specyfikę korpusu dodatkowo istnieje także możliwości formułowania zapytań pod katęm określonych zależności referencyjnych, a są to:
zapytania o wzmianki², np. „wzmianki w dopełniaczu wyszukamy, uruchamiając zapytanie containing [case="gen"]"
zapytania o klastry3, które „dają w wyniku wyrażenia dominujące klastrów. Można je przeszukiwać podając treść wyrażenia dominującego jako argument filtra coref, np.
System umożliwia także wyszukiwanie segmentów z zawężeniem wyników zgodnie z dokonanym wyborem określonych metadanych, takich jak: izba, typ tekstu, mówca, data, rok, ustrój, numer kadencji, sesja oraz etykieta i tytuł. Ponadto dodatkowym narzędziem ułatwiającym grupowanie i wizualizację wyników wyszukiwania jest panel „Statystyki".
Po drugie, można skorzystać z wyszukiwarki tekstów, jeśli poszukujemy określonych materiałów językowych ograniczonych zgodnie z zaznaczonymi metadanym, takimi jak: etykieta, tytuł, typ tekstu, długość.
Inne wersje elektroniczne online: korpus do pobrania w postaci plików w trzech formatach: MMAX, TEI ze strony: http://zil.ipipan.waw.pl/PolishCoreferenceCorpus.
1 Prace nad korpusem realizowane były w ramach dwóch grantów: projektu pt. Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE) (w latach 2011–2014) – finansowanego ze środków Ministerstwa Nauki i Szkolnictwa Wyższego oraz projektu pt. Ujednolicona teoria koreferencji w języku polskim i jej korpusowa weryfikacja (COTHEC) (w latach 2015–2018) finansowanego ze środków Narodowego Centrum Nauki (zob. http://pcc.nlp.ipipan.waw.pl/overview).
2 Wzmianka, jak wyjaśnia M. Ogrodniczuk, to „wyrażenia referencyjne, za pomocą których tworzymy odwołania w tekście" (z ang. mention) (Ogrodniczuk 2019: 19). Na stronie KZR podaje się następującą listę możliwych typów wych wzmianek: referencja bezpośrednia – ident; agregacja –indirect_aggregation; kompozycja – indirect_composition; kategorialność – excluding_ios; anafora związana – indirect_bound; inna relacja pośrednia – indirect_other; metareferencja – supporting_metareference; porównanie – supporting_comparison; predykat –supporting_predicative; inna relacje wspierająca – supporting_other; kontrast – excluding_contrast; polisemia – excluding_polysemy; inna relacja wykluczająca – excluding_other (zob. http://pcc.nlp.ipipan.waw.pl/manual).
³ M. Ogrodniczuk tak definiuje klaster: „Kiedy odwołanie następuje wielokrotnie, pomiędzy fragmentami wypowiedzi o wspólnym odniesieniu zachodzi zjawisko koreferencji (ang. coreference); zbiór takich odwołań nazywam klastrem koreferencyjnym (ang. coreference cluster)" (Ogrodniczuk 2019: 19).
© Copyright by Patrycja Pałka; © Copyright by Agata Kwaśnicka-Janowicz; © Copyright by Towarzystwo Miłośników Języka Polskiego