Znakowanie jest terminem niezwykle istotnym w językoznawstwie korpusowym, umożliwiającym zrozumienie nie tylko tego, jak są zbudowane korpusy, ale także tego, z czego wynikają i na czym polegają bardzo zaawansowane możliwości przeszukiwania tych baz danych. Znakowanie oznacza bowiem wzbogacenie tekstów przetworzonych elektronicznie o różnego rodzaju informacje, w tym informacje lingwistyczne. W literaturze przedmiotu stosuje się także, choć nie zawsze wymiennie, takie pojęcia, jak anotacja, adnotacja, tagowanie czy indeksowanie (zob. Bański 2003, Przepiórkowski i in. 2003, Hebal-Jezierska (red.) 2014). Najbardziej podstawowym poziomem znakowania jest segmentacja tekstu – podział na zdania i segmenty (inaczej z ang. token z terminologii informatycznej), czyli jednostki powstałe w wyniku tego podziału, będące ciągami znaków, które są ograniczone określonymi w danej koncepcji korpusu separatorami. Na przykład w Narodowym Korpusie Języka Polskiego (http://www.nkjp.pl/) separatorami są spacje lub znaki interpunkcyjne z wyłączeniem pewnych użyć dywizu i apostrofu (zob. Przepiórkowski i in. (red.) 2012: 61–62). W niektórych korpusach segment (token) jest równoznaczny z wyrazem ortograficznym (ciągiem liter między dwiema spacjami), czasem też odrębnym segmentem (tokenem) jest znak interpunkcyjny, symbol, liczba lub ciągi krótsze niż wyrazy ortograficzne, takie jak ruchome końcówki czasowników w formach czasu przeszłego i trybu przypuszczającego (np. w NKJP pisał|em, pisali|śmy to dwa segmenty) oraz partykuła by (np. w NKJP zrobił|by to dwa segmenty, a zrobili|by|śmy to trzy segmenty) (zob. też Hebal-Jezierska (red.) 2014: 14–15 i nast.). Znakowanie w korpusie wiąże się również z koniecznością lematyzacji (hasłowania), która polega na przyporządkowaniu określonych form hasłowych występującym w korpusie różnym fleksemom¹. Innymi słowy, w wyniku lematyzacji przypisuje się danemu wyrazowi (np. użytemu w tekstach w różnych formach fleksyjnych) jego formę podstawową, a więc tzw. lemat. Na innych poziomach wzbogacania tekstów w korpusie znakowanie obejmuje ponadto: znakowanie morfosyntaktyczne (zgodnie z przyjętym repertuarem klas i kategorii gramatycznych), znakowanie składniowe, znakowanie jednostek nazewniczych, a także znakowanie sensami słów (zob. Przepiórkowski i in. (red.) 2012: 52, 49–193, zob. też Lewandowska-Tomaszczyk (red.) 2005: 61–74). Dodatkowo w korpusach przypisuje się tekstom również informacje metajęzykowe (tzw. metadane) dotyczące m.in. autora, tytułu tekstu, źródła (np. nazwa czasopisma, w którym zamieszczono dany artykuł prasowy), typu (np. gatunku lub stylu), kanału przekazu, daty wydania, miejsca wydania itp. Ten poziom znakowania bywa nazywany w literaturze przedmiotu tagowaniem administracyjnym (zob. Hebal-Jezierska (red.) 2014: 9).
Do korzystania z korpusów niezwykle istotna jest również znajomość takich terminów, jak konkordancja, kolokacja, kolokat oraz kolokator. Konkordancje to zestaw wystąpień danego wyrazu w analizowanym tekście lub w analizowanych tekstach wraz z jego kontekstem czy, jak ujmuje to Milena Hebal-Jezierska (za: Lewandowska-Tomaszczyk 2005: 296), „zbiór przykładów użycia danej formy wyrazowej, z których każdy jest przedstawiony w swoim własnym środowisku tekstowym" (Hebal-Jezierska (red.) 2014: 8). Należy jednak zaznaczyć, że w prezentowanym materiale pojawia się także inne użycie słowa konkordancja (zob. PPNT: Piętnastowieczne przekłady Nowego Testamentu), rozumianego jako rodzaj listy, zestawienia jakichś tekstów.
Z kolei kolokacja to częste, powtarzalne lub typowe połączenie wyrazowe, a więc „stale powtarzające się wzory występowania słów w swoim sąsiedztwie; są to kombinacje słów, które wykazują duże prawdopodobieństwo współwystępowania obok siebie" (Lewandowska-Tomaszczyk 2005: 39). W danej kolokacji wyróżnia się: ośrodek kolokacji oraz kolokat – wyraz współwystępujący, sąsiadujący z ośrodkiem kolokacji, tworzący „sensowne połączenia lub część sensownego połączenia" (Hebal-Jezierska 2014: 68). Narzędzie będące programem komputerowym, który służy do wyszukiwania kolokacji w danym korpusie, określa się mianem kolokatora.
Podkreślamy zatem raz jeszcze, że dzisiejsze korpusy tekstów jako odpowiednio skomponowane i skomputeryzowane bazy danych językowych poza samym tekstem zawierają zarówno informacje metatekstowe (gatunek, styl, autor, tytuł, rok wydania tekstu itp.), jak i informacje gramatyczne (dotyczące przynależności wyrazu do danej klasy czy kategorii gramatycznej). Taka anotacja stanowi dodatkową warstwę informacyjną, która umożliwia formułowanie szczegółowych zapytań oraz bardzo zaawansowane wyszukiwanie danych dodatkowych, niezawartych bezpośrednio w zbiorze tekstów źródłowych. Duże korpusy mogą więc stanowić odzwierciedlenie wielkich kontekstów językowych, weryfikujących intuicję badaczy na temat częstości, regularności i wzorców użycia nie tylko poszczególnych leksemów, ale także form gramatycznych oraz fraz wyrazowych (Fabiszak, Konat 2013).
W literaturze przedmiotu, w związku z postępem technologicznym widocznym w opracowaniach słowników prymarnie i wtórnie elektronicznych, coraz częściej prezentowane jest stanowisko, zgodnie z którym słownik jest traktowany jako korpus tekstów, a korpus jako słownik. Pisał już o tym Żmigrodzki: „dokumentacyjne słowniki naukowe coraz częściej służą jako korpusy tekstów, tzn. stają się podstawą materiałową różnego rodzaju prac naukowych, przy czym badacze zainteresowani są przede wszystkim przykładami, które wynotowują i poddają reinterpretacji, lub tylko powtórnemu sortowaniu wyselekcjonowanego (pod)korpusu przykładów" (Żmigrodzki 2005b: 8). Powoduje to przeniesienie punktu ciężkości z naukowego opracowywania materiałów na ich archiwizowanie oraz udostępnianie w wersji elektronicznej, co w połączeniu z nowoczesnymi narzędziami badawczymi zmienia warsztat pracy współczesnego językoznawcy.
¹ „Pojęcie fleksemu wprowadził Janusz Bień (1991). Fleksem to dla nas zbiór form jednolicie lub niemal jednolicie zróżnicowanych ze względu na właściwe im kategorie gramatyczne. Na przykład klasa leksemów o nazwie czasownik składa się między innymi z fleksemów: forma nieprzeszła, pseudoimiesłów, aglutynant czasownika być, rozkaźnik, bezosobnik, bezokolicznik, odsłownik, imiesłów przysłówkowy współczesny" (Przepiórkowski i in. (red.) 2012: 62).
© Copyright by Patrycja Pałka; © Copyright by Agata Kwaśnicka-Janowicz; © Copyright by Towarzystwo Miłośników Języka Polskiego