Forma dostępu: online, https://kdp.ipipan.waw.pl/query_corpus/6/
Wymogi techniczne: pełny dostęp bez konieczności założenia konta i logowania się.
Zawartość: korpus został opracowany przez Zespół Inżynierii Lingwistycznej IPI PAN¹, działający pod kierownictwem Macieja Ogrodniczuka. Baza zawiera anotowane lingwistycznie (według tych samych zasad co NKJP) teksty dokumentujące prace obu izb parlamentarnych II i III RP oraz Sejmu w dobie PRL-u² od roku 1919 do czasów współczesnych. Zgodnie z metadanymi, jakie zostały przypisane dokumentom, w bazie uwzględnia się następujące typy tekstów dyskursu parlamentarnego: 1) posiedzenie plenarne, 2) komisja, 3) zgromadzenie posłów i senatorów, 4) wspólne posiedzenie Sejmu i Senatu, 5) Zgromadzenie Narodowe i 6) uroczyste spotkanie, a także 7) uroczyste zgromadzenie posłów i senatorów, 8) interpelacja, 9) odpowiedź na interpację oraz 10) zapytanie i 11) odpowiedź na zapytanie. Zbiór źródeł jest stale uzupełniany o nowy materiał językowy; obecna wielkość korpusu to 800 mln segmentów (zob. stan danych korpusowych – http://clip.ipipan.waw.pl/PPC).
Możliwości i ograniczenia korzystania z zasobów: możliwość zaawansowanego wyszukiwania danych w bazie. System umożliwia przeszukiwanie korpusu na dwa sposoby. Po pierwsze, można skorzystać z wyszukiwarki segmentów (zob. https://kdp.ipipan.waw.pl/query_corpus/6/), w której zapytanie formułuje się samemu za pomocą odpowiedniej składni zapytań (zbliżonej do składni zapytań w Poliqarpie w NKJP – zob. opis: 9.1.1. Wyszukiwarka Poliqarp dla NKJP (2008–2012). Możemy wyszukać na przykład (zob. https://kdp.ipipan.waw.pl/manual#zapytania):
wszystkie formy fleksyjne danego leksemu, jak choćby rzeczownika ojczyzna, wpisując [base="ojczyzna"];
konkretną formę fleksyjną danego leksemu, wpisując ją bezpośrednio w okienko dialogowe: Polską lub stosując odpowiednią składnię: [orth="Polską"];
dane słowo niezależnie od jego zapisu w tekstach wielką czy małą literą: [orth_lc="polski"];
określone klasy i kategorie gramatyczne – zgodnie z przyjętymi skrótami w języku angielskim (zob. http://nkjp.pl/poliqarp/help/ense2.html#x3-30002.1) typu: [pos="subst"] lub za pomocą umieszczonego pod okienkiem dialogowym konstruktora zapytań, umożliwiającego wprowadzenie określonych atrybutów segmentu/segmentów jak: część mowy, liczba, rodzaj, aspekt itd.
System umożliwia także wyszukiwanie segmentów z zawężeniem wyników zgodnie z dokonanym wyborem określonych metadanych, takich jak: izba, typ tekstu, mówca, data, rok, ustrój, numer kadencji, sesja oraz etykieta i tytuł. Ponadto dodatkowym narzędziem ułatwiającym grupowanie i wizualizację wyników wyszukiwania jest panel „Statystyki", za pomocą którego można na przykład uzyskać szczegółowe dane ilościowe dotyczące występowania danego wyrazu w dyskursie parlamentarnym z podziałem na poszczególne lata (innymi kryteriami, ze względu na które można grupować dane, są: etykieta, tytuł, kadencja, sesja, dzień, forma tekstowa, lemat, część mowy). Po drugie, można skorzystać z wyszukiwarki tekstów, jeśli poszukujemy określonych materiałów językowych ograniczonych zgodnie z zaznaczonymi metadanymi typu: izba, typ tekstu, mówca, data, rok, ustrój, numer kadencji, sesja oraz etykieta i tytuł.
Inne wersje elektroniczne online: korpus do pobrania w postaci plików (format XML TEI P5) ze strony: http://clip.ipipan.waw.pl/PPC.
¹ Prace nad korpusem realizowane były w ramach dwóch grantów: programu CESAR/META-NET (w latach 2011–2013) – dofinansowanego ze środków Komisji Europejskiej oraz Ministerstwa Nauki i Szkolnictwa Wyższego oraz projektu CLARIN (w latach 2016–2018) finansowanego ze środków MNiSW (zob. https://kdp.ipipan.waw.pl/overview).
² Jak podaje się na stronie KDP: „Wszystkie teksty pochodzą z serwisów Sejmu i Senatu RP i zostały udostępnione dzięki uprzejmości Kancelarii Sejmu RP, Kancelarii Senatu RP oraz Biblioteki Sejmowej. Teksty stanowią informację publiczną i jako takie są dostępne w domenie publicznej" (zob. https://kdp.ipipan.waw.pl/overview).
© Copyright by Patrycja Pałka; © Copyright by Agata Kwaśnicka-Janowicz; © Copyright by Towarzystwo Miłośników Języka Polskiego