Klasyfikacja zasobów cyfrowych

Wielu zasobom naukowym, do których mamy dziś dostęp w wersji elektronicznej i o których jest mowa w niniejszym opracowaniu, nadano postać cyfrową w wyniku procesu digitalizacji, a ściśle mówiąc, digitalizacji właściwej, która w szerszym ujęciu polega na zmianie informacji zapisanej analogowo na jej reprezentację cyfrową (zob. Ober 2005). W węższym zaś rozumieniu istotą digitalizacji, jak pisze Janusz S. Bień, jest przekształcenie „tekstów do postaci cyfrowej, w szczególności tekstów drukowanych lub pisanych na papierze. Wynik digitalizacji może mieć mniej lub bardziej wyrafinowaną postać" (Bień 2010: 132). Badacz ma tu na myśli m.in. wyniki zastosowania programu do OCR (z ang. Optical Character Recognition – optyczne rozpoznawanie znaków), które się uzyskuje, opracowując tekst po zeskanowaniu go. W bibliotekach cyfrowych mamy zwykle do czynienia z zasobami dostępnymi w postaci plików DjVu (lub PDF), zarówno takimi, które wcale nie zostały poddane OCR (w szczególności dotyczy to starodruków), jak i takimi, które zawierają wyniki tzw. brudnego (niepoddanego ręcznej korekcie) OCR, czego efektem jest na przykład możliwość kopiowania tekstu, ale z wieloma błędami w odczycie znaków (Bień 2010: 134, zob. też Bień 2012, Kalota i in. 2010). Są jednak także i takie językowe zasoby elektroniczne, które zostały przekształcone do postaci cyfrowej nie w wyniku digitalizacji właściwej, lecz komputeryzacji. Bień używa tego terminu, mając na myśli proces polegający na nadaniu tekstom (zasobom) „urodzonym jako cyfrowe" (z ang. digitally born – wprowadzanym do komputera na etapie powstawania) wygodniejszej dla użytkownika innej formy elektronicznej (Bień 2010: 132)¹. Ponadto coraz więcej naukowych opracowań cyfrowych (zob. m.in. WSJP PAN, Walenty, Słowosieć) nie podlega ani wcześniejszej digitalizacji, ani komputeryzacji, lecz powstaje prymarnie w wersji elektronicznej.

Podejmując się autorskiej próby sklasyfikowania dostępnych obecnie zasobów elektronicznych, przywołajmy najpierw istniejące już w literaturze przedmiotu podziały. I tak Piotr Żmigrodzki, opierając się najpierw na nadrzędnym kryterium formy utrwalenia (druk – w opozycji do nośnika komputerowego), wydziela dwie grupy: słowniki tradycyjne (papierowe) i słowniki elektroniczne (komputerowe). Następnie w dwóch odrębnych pracach proponuje dwa różne podziały słowników elektronicznych. Pierwsza typologia wiąże się z kryterium rodzaju nośnika, na podstawie którego można wyodrębnić: słowniki offline (udostępnione na nośnikach stałych: CD, DVD) oraz słowniki online (udostępnione za pomocą internetu) (zob. Żmigrodzki 2005a: 252–258). W drugiej zaś typologii badacz wykorzystuje pojęcie procesu digitalizacji, wyróżniając słowniki niepoddane digitalizacji (prymarnie elektroniczne) i słowniki zdigitalizowane (wtórnie elektroniczne) (zob. Żmigrodzki 2008: 98–123). W ramach tej drugiej grupy Żmigrodzki wydziela trzy typy słowników wydanych w wersji cyfrowej w wyniku procesu:

czytaj dalej

1) digitalizacji pierwszego stopnia: słowniki dostępne jako „plik graficzny możliwy do wyświetlania na ekranie komputera tak jak książka (bez jakiejkolwiek możliwości wyszukiwania w tekście)" (Żmigrodzki 2008: 102),

2) digitalizacji drugiego stopnia: słowniki dostępne jako „plik graficzny z indeksowaniem, które daje możliwość ograniczonego wyszukiwania w tekście" haseł i (lub) wyrazów tekstowych gdziekolwiek w artykułach hasłowych (Żmigrodzki 2008: 102),

3) digitalizacji trzeciego stopnia: słowniki dostępne jako „plik tekstowy lub bazodanowy z możliwościami wyszukiwania pojedynczych haseł i fragmentów artykułów hasłowych, ograniczonymi tylko właściwościami zastosowanego oprogramowania" (Żmigrodzki 2008: 103).

O możliwych poziomach digitalizacji pisze także Bień, który przywołuje klasyfikację opracowaną z inicjatywy amerykańskiej Federacji Bibliotek Cyfrowych (przez TEILib – TEI in Libraries Special Interest Group). Na klasyfikację tę składają się takie etapy wspomnianego procesu, jak: (1) digitalizacja całkowicie automatyczna, (2) minimalna digitalizacja edytowana, (3) digitalizacja z prostą analizą dokumentu, (4) digitalizacja z podstawową analizą treści dokumentu, (5) cyfrowa edycja krytyczna (Bień 2010: 133). Ustosunkowując się zarówno do powyższej klasyfikacji, jak i podziału Żmigrodzkiego słowników według stopnia digitalizacji, Bień ostatecznie uznaje, że typologie te nie są do końca trafne, a więc i użyteczne, gdyż ich wadą są trudności w przypisaniu tylko do jednej kategorii większości wtórnie wydanych elektronicznie słowników, omawianych przez niego w różnych pracach (zob. Bień 2006, 2009, 2010). Dlatego też badacz stwierdza, że najbardziej pożyteczne byłoby sklasyfikowanie słowników z uwzględnieniem jedynie aspektu czysto technicznego (Bień 2010: 133, zob. też m.in. na temat digitalizacji i komputeryzacji Słownika polszczyzny XVI wieku – Bień 2009, 2014).

Zgadzamy się z opinią Bienia dotyczącą rozmytego charakteru kryterium stopnia digitalizacji i dlatego w niniejszym opracowaniu proponujemy podział zasobów dostępnych w wersji cyfrowej uwzględniający perspektywę zarówno zwykłego użytkownika języka, jak i badacza polszczyzny lub literatury, dla których istotny jest nie aspekt techniczny pliku, ale forma dostępu i możliwości korzystania z zasobów, zwłaszcza wyszukiwania różnorodnych danych (zob. Kwaśnicka-Janowicz, Pałka 2015). Tak więc przyjętymi przez nas kryteriami w klasyfikacji zasobów elektronicznych są:

a) prymarność/wtórność (lub powtórność) edycji elektronicznej,

b) forma dostępu: offline/online,

c) stopień możliwości korzystania z danych w zasobach:

– brak możliwości wyszukiwania danych i kopiowania tekstu,

– ograniczone możliwości korzystania z zasobów, w tym wyszukiwania danych:

• wyszukiwanie słów zawierających dany ciąg liter z poziomu okienka dialogowego (w wypadku zasobów bibliotek cyfrowych),

• przeszukiwanie według listy haseł lub spisu treści (w wypadku słowników czy innych materiałów online/offline),

• fakultatywnie: możliwość kopiowania tekstu, ale z ewentualnymi błędami w odczycie znaków; automatyczne wyszukiwanie haseł zawierających na początku wyrazu dany ciąg liter; system odnośników (wewnętrzne hiperłącza pozwalające na przejście do danego hasła po kliknięciu w dowolny lub zaznaczony wyraz w tekście),

– zaawansowane możliwości korzystania z zasobów, w tym wyszukiwania danych:

• możliwości wyszukiwania takie jak w punkcie (b),

• możliwość kopiowania tekstu (w tym całych haseł) bez błędnego odczytu znaków,

• wyszukiwanie wyrazów i (lub) ciągu znaków w całym słowniku i (lub) w danym haśle, i (lub) w różnych elementach artykułu hasłowego,

• fakultatywnie: wyszukiwanie haseł w słowniku po wpisaniu dowolnej formy fleksyjnej; wyszukiwanie wyrażeń w całym słowniku i (lub) w poszczególnych elementach artykułu hasłowego; wyszukiwanie krzyżówkowe; system odnośników; wyszukiwanie wybranych (w dość ograniczonym zakresie) grup haseł dostępnych w danym zasobie;

– bardzo zaawansowane możliwości korzystania z zasobów, w tym wyszukiwania danych:

• możliwości wyszukiwania takie jak w punkcie (c),

• wyszukiwanie określonego ciągu znaków,

• wyszukiwanie wszystkich form fleksyjnych danego leksemu,

• wyszukiwanie połączeń wyrazowych,

• wyszukiwanie za pomocą zaprojektowanych (wbudowanych i rozwiniętych) narzędzi, dopasowanych do zawartości danego zasobu, umożliwiających automatyczne pozyskanie danych, które są elementami opisu leksykograficznego w słowniku lub którymi anotowano teksty w korpusie, m.in. wyszukiwanie według kwalifikatorów, przynależności do danej kategorii tematycznej, według języka pochodzenia, źródeł, za pomocą zapytań o klasę gramatyczną i kategorie gramatyczne, za pomocą metadanych, np. informacji o autorze, tytule, dacie wydania.

W wyniku zastosowania powyższych kryteriów wyłania się następujący podział dostępnych obecnie zasobów cyfrowych.

1. Zasoby prymarnie wydane elektronicznie (zasoby, które od początku miały postać elektroniczną, czyli „narodziły się jako cyfrowe", i nie miały żadnych wcześniejszych wydań):

1.1. Zasoby dostępne offline (niedostępne za pośrednictwem internetu, wydane na określonych nośnikach danych):

1.1.1. Zasoby bez możliwości wyszukiwania danych (brak przykładu w niniejszej pracy).

1.1.2. Zasoby z ograniczonymi możliwościami korzystania z danych (np. SFJP: Wiesław Lubaszewski, Henryk Wróbel, Marek Gajęcki, Barbara Moskal, Alicja Orzechowska, Paweł Pietras, Piotr Pisarek, Teresa Rokicka, Słownik fleksyjny języka polskiego, Wydawnictwo Prawnicze LexisNexis, Kraków 2001, CD).

1.1.3. Zasoby z zaawansowanymi możliwościami korzystania z danych (np. SGJP 2012: Zygmunt Saloni, Marcin Woliński, Robert Wołosz, Włodzimierz Gruszczyński, Danuta Skowrońska, Słownik gramatyczny języka polskiego, wersja 2.0, Wydawnictwo Sowa, Warszawa 2012, CD).

1.1.4. Zasoby z bardzo zaawansowanymi możliwościami korzystania z danych (brak przykładu w niniejszej pracy).

1.2. Zasoby dostępne online (dostępne za pośrednictwem internetu):

1.2.1. Zasoby bez możliwości wyszukiwania danych (brak przykładu w niniejszej pracy).

1.2.2. Zasoby z ograniczonymi możliwościami korzystania z danych (np. ISNwP: Internetowy słownik nazwisk w Polsce (2023) dostępny na stronie: https://nazwiska.ijp.pan.pl/).

1.2.3. Zasoby z zaawansowanymi możliwościami korzystania z danych (np. SP XVI:Słownik polszczyzny XVI wieku (1956 –2021), http://spxvi.edu.pl/wersja-cyfrowa/).

1.2.4. Zasoby z bardzo zaawansowanymi możliwościami korzystania z danych (WSJP PAN: Wielki słownik języka polskiego PAN, red. Piotr Żmigrodzki, https://wsjp.pl/).

2. Zasoby wtórnie lub powtórnie wydane elektronicznie – czyli, po pierwsze, zasoby poddane digitalizacji właściwej, a więc teksty pisane (prymarnie rękopiśmienne lub drukowane) oraz teksty mówione (nagrania zapisane analogowo, np. na kasecie magnetofonowej, i wtórnie przekształcone do postaci cyfrowej), a po drugie, zasoby poddane komputeryzacji, czyli teksty prymarnie elektroniczne – „urodzone jako cyfrowe", już na etapie tworzenia wprowadzone do pamięci komputera, i powtórnie poddane obróbce cyfrowej w celu ich ponownej edycji elektronicznej:

2.1. Zasoby dostępne offline:

2.1.1. Zasoby bez możliwości wyszukiwania danych (brak przykładu w niniejszej pracy).

2.1.2. Zasoby z ograniczonymi możliwościami korzystania z danych (np. BZPPŚ: Biblioteka zabytków polskiego piśmiennictwa średniowiecznego, red. Wacław Twardzik, IJP PAN, Kraków 2006).

2.1.3. Zasoby z zaawansowanymi możliwościami korzystania z danych (np. USJP 2004: Uniwersalny słownik języka polskiego, wersja 1.0, Wydawnictwo Naukowe PWN, Warszawa 2004, CD).

2.1.4. Zasoby z bardzo zaawansowanymi możliwościami korzystania z danych (brak przykładu w niniejszej pracy).

2.2. Zasoby dostępne online:

2.2.1. Zasoby bez możliwości wyszukiwania danych (np. Ksw: Kazania świętokrzyskie, Rps 8001 BN) – skany tekstu rękopiśmiennego dostępne na stronie biblioteki cyfrowej https://polona.pl/item/kazania-swietokrzyskie,MzA0OTIw/).

2.2.2. Zasoby z ograniczonymi możliwościami korzystania z danych (np. SGPKarł: Jan Karłowicz, Słownik gwar polskich, t. 1–6, Akademia Umiejętności, Kraków 1900–1911, skany tekstu drukowanego dostępne na stronie biblioteki cyfrowej https://zbc.uz.zgora.pl/dlibra/publication/9017).

2.2.3. Zasoby z zaawansowanymi możliwościami korzystania z danych (np. SJP PWN 2023: Słownik języka polskiego PWN dostępny na stronie http://sjp.pwn.pl/sjp/lista/A.html).

2.2.4. Zasoby z bardzo zaawansowanymi możliwościami korzystania z danych (np. Wyszukiwarka Poliqarp dla NKJP (2008–2010): http://nkjp.pl/poliqarp/ ).

Do ostatniej z wymienionych powyżej grup w dużej mierze należą korpusy językowe, które warto omówić osobno, gdyż różnią się one od reszty prezentowanych tu materiałów. Przy okazji wyjaśnimy najbardziej podstawowe i wielokrotnie przywoływane w niniejszej pracy terminy używane w językoznawstwie korpusowym i komputerowym.

Korpusy językowe konstruowane są z wykorzystaniem różnych tekstów źródłowych – zarówno tych, które są wydane cyfrowo prymarnie, jak i tych opublikowanych wtórnie czy powtórnie w wersji elektronicznej – powstałych w wyniku digitalizacji i (lub) komputeryzacji tekstów pisanych i (lub) mówionych. Teksty w korpusach są więc pierwotnie wydane drukiem, a wtórnie zdigitalizowane (zob. korpusy dawnej polszczyzny) bądź wtórnie zdigitalizowane i następnie zapisane cyfrowo albo pierwotnie powstałe w wersji komputerowej i powtórnie przekształcone elektronicznie (zob. korpusy współczesnej polszczyzny). Można wyróżnić m.in. następujące rodzaje korpusów językowych:

1) korpusy języka narodowego, np. NKJP: Narodowy Korpus Języka Polskiego –http://www.nkjp.pl/,

2) korpusy równoległe (zbiór tekstów wraz z ich przekładami na inny język lub inne języki, zob. Hebal-Jezierska (red.) 2014: 198–231), np. InterCorp: https://ucnk.ff.cuni.cz/cs/,

3) korpusy specjalistyczne (zbiór tekstów reprezentujących daną specjalistyczną odmianę języka), np. Korpus dyskursu parlamentarnego: https://kdp.nlp.ipipan.waw.pl/query_corpus/,

4) korpusy języka mówionego, np. Spokes: http://spokes.clarin-pl.eu/,

5) korpusy języka pisanego, np. Korba: Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772) (2013–2017), http://wiki.nlp.ipipan.waw.pl/korba; https://korba.edu.pl/,

6) korpusy języka współczesnego, np. korpus z wyszukiwarką Monco: http://monco.frazeo.pl/,

7) korpusy języka dawnego, np. KP XVI korpus polszczyzny XVI w. – http://spxvi.edu.pl/korpus/.

Przedstawiona powyżej niepełna typologia korpusów ma charakter nierozłączny, gdyż na przykład korpusy języka dawnego są z reguły korpusami zawierającymi teksty pisane.

Korpus języka trzeba postrzegać jako ustrukturyzowaną bazę danych językowych, czyli „podzbiór tekstów zorganizowany w taki sposób, by umożliwić sprawne wydobywanie i weryfikowanie informacji na temat dowolnego dobrze określonego podzbioru języka" (Hajnicz 2011: 21). Współczesne korpusy mają formę elektronicznych baz tekstów i budowane są tak, by spełniały określone kryteria, takie jak: (a) ilość (obszerność), (b) jakość (autentyczność), (c) udokumentowanie (w tym właściwie zaplanowane i opisane metadane, np. gatunek, styl, autor, tytuł, rok wydania tekstu), (d) skończona wielkość, (e) reprezentatywność i odniesienie standardowe, (f) edycja elektroniczna oraz (g) system znakowania (zob. Lewandowska-Tomaszczyk (red.) 2005: 27–28).

¹ Na temat digitalizacji i komputeryzacji zob. m.in. Żmigrodzki 2008: 98–123, Bień 2006, 2009, 2010, 2012, 2013, 2014.

secretcats.pl - tworzenie stron internetowych