Świdziński M., Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy.pdf - artykuły - hopcia81

„LingVaria” Nr 1, 2006

Lingwistyka korpusowa w Polsce – Ņ ródła, stan, perspektywy

Marek ĺ widzi ı ski

Instytut J ħ zyka Polskiego

Uniwersytet Warszawski

Wst ħ p

Niniejszy szkic, adresowany przede wszystkim do młodego pokolenia lingwistów-

polonistów, przedstawia wizj ħ j ħ zykoznawstwa XXI stulecia. Jest to mianowicie lingwistyka

korpusowa. Rozwija si ħ ona ju Ň od jakiego Ļ czasu; wynikła w sposób naturalny z do Ļę

szcz ħĻ liwego splotu ró Ň norodnych okoliczno Ļ ci; zdominowała inne nurty i odmiany

j ħ zykoznawstwa nieodwracalnie. Nie mo Ň na by ę dzi Ļ j ħ zykoznawc Ģ i nie otrze ę si ħ o ni Ģ

cho ę by jako u Ň ytkownik narz ħ dzi. A skoro tak, to warto wej Ļę w ten Ļ wiat z wyboru, zada ı

bowiem jest moc i b ħ dzie ich coraz wi ħ cej. W Ļ wiecie jest na t ħ najnowsz Ģ lingwistyk ħ , nie na

dowoln Ģ , mnóstwo pieni ħ dzy – i zajmuj Ģ si ħ ni Ģ całe rzesze; to dowodzi, Ň e co Ļ jest na rzeczy,

Ň e czemu Ļ to słu Ň y... Niestety, nie w naszej ojczy Ņ nie.

In Ň ynieri ħ korpusow Ģ przyniosła najmłodsza z długiej serii XX-wiecznych rewolucji –

rewolucja informatyczna. Ale przed ni Ģ zdarzyły si ħ dwie inne rewolucje intelektualne. Marsz

przez te rewolucje stał si ħ udziałem pokole ı j ħ zykoznawców. Drog ħ t ħ przeszedłem i ja.

Rewolucja nr 1: strukturalizm

J ħ zykoznawstwo jako samodzielna dyscyplina liczy sobie niewiele ponad sto lat. Cho ę

w minionych tysi Ģ cleciach znale Ņę mo Ň na wielu wa Ň nych prekursorów, od Paniniego i

Arystotelesa poprzez gramatyków staro Ň ytnego Rzymu po Arnaulda i Lancelota, twórców

Gramatyki Port-Royal , to lingwistyka teoretyczna zrodziła si ħ u schyłku XIX stulecia.

Pierwsza rewolucja jest dziełem Ferdynanda de Saussure’a, j ħ zykoznawcy

szwajcarskiego, profesora uniwersytetów w Genewie i Pary Ň u. Jemu, jego

współpracownikom i wychowankom (którzy zreszt Ģ sami spisali i wydali wykłady mistrza), a

tak Ň e grupie wybitnych nast ħ pców zawdzi ħ czamy sformułowanie koncepcji j ħ zyka

naturalnego jako systemu semiotycznego: to dwuklasowy system znaków słu ŇĢ cy okre Ļ lonej

populacji do komunikacji uniwersalnej. Lingwistyka dostała aparat, który jest dzi Ļ

oczywisto Ļ ci Ģ : (a) synchronia przede wszystkim, (b) abstrakcyjny system ( langue ) i

konkretny tekst ( parole ), (c) znak – obiekt o dwóch twarzach: ma kształt i funkcj ħ , (d)

opozycja – ró Ň nica kształtu obci ĢŇ ona funkcjonalnie, (e) paradygmatyka i syntagmatyka, (f)

słownik – zbiór znaków prostych, gramatyka – zbiór instrukcji syntezy i rozbioru wyra Ň e ı ,

(g) inwarianty i warianty. Teoria de Saussure’a dotarła do Polski z gór Ģ pół wieku od jej

powstania – przekład polski jego wykładów ukazał si ħ w roku 1961 (Saussure (1961)).

Koryfeuszy ówczesnego j ħ zykoznawstwa w Polsce nie zainteresowała.

Strukturalizm, który wyrósł z idei de Saussure’a, wyzwolił j ħ zykoznawstwo – nauk ħ

empiryczn Ģ – z oków humanistycznej filologii. Filolodzy zajmowali si ħ przez stulecia

tekstami (czy kawałkami tekstów) i pochodzeniem; strukturalizm podj Ģ ł problem budowy i

funkcji wyra Ň e ı . Strukturalny opis pewnego obiektu przyrodniczego jako pary <słownik,

gramatyka> daje model rodzimego u Ň ytkownika j ħ zyka; elementy tej pary to składniki

kompetencji j ħ zykowej. Doktryna strukturalna opanowała Ļ wiat lingwistyki pierwszej połowy

zeszłego stulecia, a my Ļ lenie systemowe, rzecz ciekawa, promieniowało na inne działy

humanistyki.

Nie miejsce tu na wykład ró Ň nych szkół europejskiego j ħ zykoznawstwa strukturalnego.

Trzeba wszak Ň e wspomnie ę o strukturalizmie ameryka ı skim, czyli dystrybucjonizmie, od

niego bowiem do NLP ( Natural Language Processing ) tylko krok. Dystrybucjoni Ļ ci to

pierwsi teoretycy, którzy budowali korpusy – zbiory wyra Ň e ı traktowane jako reprezentuj Ģ ce

dany j ħ zyk naturalny. Od nich pochodzi inne ni Ň nasze europejskie rozumienie j ħ zyka

naturalnego. Jest nim zbiór zda ı poprawnych i tylko takich. Opis (czy model) danego j ħ zyka

to recepta na wyra Ň enia tego j ħ zyka.

Strukturali Ļ ci, zapewne jako pierwsi w historii lingwistyki, podj ħ li si ħ sporz Ģ dzania

wyczerpuj Ģ cych opisów ró Ň nych j ħ zyków naturalnych, opisów całego j ħ zyka. Za przykład

niech posłu Ň y Ottona Jespersena monumentalna gramatyka angielska (Jespersen 1909-1949).

To, Ň e nowoczesna lingwistyka rozwin ħ ła si ħ najowocniej w kr ħ gu anglosaskim, jest pewnie

zasług Ģ Jespersena.

Warsztat strukturalizmu to pierwszy składnik kompetencji współczesnego

j ħ zykoznawcy.

3. Rewolucja nr 2: generatywizm i lingwistyka formalna

Drug Ģ rewolucj ħ potrafimy dokładnie datowa ę . W roku 1957 ukazały si ħ w

wydawnictwie Moutona Struktury składniowe Noama Chomsky’ego (1957). Ów „przewrót

kopernika ı ski” polega ę miał na odrzuceniu tradycji strukturalistycznej. Chomsky uwa Ň ał, Ň e

strukturalizm nie ujawnia tego, Ň e kompetencja j ħ zykowa jest produktywna; Ň e, innymi

słowy, u Ň ytkownik j ħ zyka potrafi interpretowa ę wyra Ň enia, których nigdy nie słyszał, i nowe

wyra Ň enia produkowa ę . Ale Chomsky’ego krytyka strukturalizmu (niezbyt zreszt Ģ

sprawiedliwa) dotyka co najwy Ň ej dystrybucjonizmu, i to wcale nie jego litery. Kamieniem

obrazy jest dla Chomsky’ego ograniczono Ļę korpusów, którymi posiłkowali si ħ

dystrybucjoni Ļ ci. Dla nich korpus był Ņ ródłem danych empirycznych. Poniewa Ň podejmowali

trud opisywania ró Ň nych j ħ zyków dot Ģ d nie opisywanych, w szczególno Ļ ci j ħ zyków Indian,

którzy wymierali, korpusy z natury rzeczy nie mogły by ę du Ň e. Wielkich zreszt Ģ nie dałoby

si ħ obj Ģę ogl Ģ dem.

Chomsky, krytyk dystrybucjonizmu, korzysta jednak szeroko z tamtej aparatury

poj ħ ciowej. Przede wszystkim, id Ģ c Ļ ladem dystrybucjonistów, ujmuje j ħ zyk naturalny

teoriomnogo Ļ ciowo: to zbiór wszystkich mo Ň liwych zda ı , zbiór niesko ı czony. Opis j ħ zyka, a

wi ħ c jego gramatyka, jest tego zbioru definicj Ģ . Definicj ħ tak Ģ nazywamy gramatyk Ģ

formaln Ģ . Słownik jako zbiór pewnych składników prostych nale Ň y do gramatyki.

Ju Ň od półwiecza Chomsky nosi szat ħ guru współczesnej lingwistyki. Z gramatyki

generatywno-transformacyjnej, której ide ħ wyło Ň ył w Stukturach składniowych , wyrosły

kolejne jej mutacje – rozszerzona teoria standardowa (EST), wprowadzona w Aspektach teorii

składni Chomsky’ego (1966), a tak Ň e teoria rz Ģ du i wi Ģ zania (GB; Haegemann (1992)) oraz

minimalizm; te dwie ostatnie – z nieistotn Ģ dla nas tutaj filozoficzn Ģ obudow Ģ Gramatyki

Uniwersalnej. Zrodziły si ħ te Ň w ci Ģ gu dziesi ħ cioleci inne teorie, znacznie lepiej dopracowane

formalnie, zwłaszcza HPSG (Pollard i Sag (1994)). W ramach tych aparatów powstała i

powstaje gigantyczna literatura na temat najrozmaitszych j ħ zyków, od staroislandzkiego po

warlpiri. Mo Ň na powiedzie ę bez przesady, Ň e du Ň a cz ħĻę populacji lingwistów na Ļ wiecie

działa w kr ħ gu generatywizmu chomskia ı skiego. Nie dotyczy to, niestety, Polski, w której

ziemi ħ t ħ uprawiaj Ģ niemal wył Ģ cznie angli Ļ ci. Opisuj Ģ oni zreszt Ģ głównie polszczyzn ħ ;

obszerny zestaw odesła ı do publikacji polskich generatywistów znale Ņę mo Ň na na przykład w

tomie studiów po Ļ wi ħ conych HPSG (Przepiórkowski i in. (2002)). Znamienne, Ň e polski

przekład Aspektów Chomsky’ego (1982) przeszedł bez echa. Dopiero ostatnio pojawiło si ħ

popularne kompendium generatywizmu (Mecner (2004)). Generatywizm nie stworzył

wszak Ň e wielkich syntez, a wi ħ c wyczerpuj Ģ cych opisów poszczególnych j ħ zyków; cho ę by

tych najwa Ň niejszych.

Dobra znajomo Ļę narz ħ dzi generatywizmu to drugi składnik kompetencji

współczesnego j ħ zykoznawcy.

Rewolucja nr 3: lingwistyka informatyczna

O ile dwie poprzednie rewolucje wynikły, by tak rzec, w toku normalnego rozwoju

my Ļ lowego pewnej dyscypliny, rewolucja ostatnia przyszła z zewn Ģ trz, i to bardzo niedawno.

Komputery, jeszcze w połowie ubiegłego wieku pracuj Ģ ce w Pentagonie, agencjach

kosmicznych czy o Ļ rodkach obliczeniowych, trafiły pod strzechy, aby sta ę si ħ standardowym

urz Ģ dzeniem gospodarstwa domowego. Co wi ħ cej, w ci Ģ gu parunastu lat wymarł pewien fach:

zawód zecera. Skład komputerowy to wyrok Ļ mierci dla drukarstwa Gutenberga.

I jeszcze jeden zbieg okoliczno Ļ ci. Oto w latach 1970. rozpocz ħ ła si ħ współpraca

mi ħ dzy grup Ģ informatyków z Wydziału Matematyki Uniwersytetu Warszawskiego i grup Ģ

j ħ zykoznawców Wydziału Polonistyki. Do tej kooperacji obie strony były wtedy dobrze

przygotowane, podobnie jak pó Ņ niej – do podj ħ cia zaawansowanych prac w zakresie

lingwistyki informatycznej. Ni Ň ej b ħ dzie mowa o niektórych przedsi ħ wzi ħ ciach, które

wyrosły z owego zbli Ň enia dwóch Ļ rodowisk. Poka Ňħ tu w szczególno Ļ ci prace powstałe w

Ļ rodowisku warszawskim, zwłaszcza w Zakładzie J ħ zykoznawstwa Komputerowego, którym

kieruj ħ . Skupienie si ħ tutaj na nich nie ma oznacza ę , Ň e nigdzie indziej nie działo si ħ i nie

dzieje nic, co dla dyscypliny wa Ň ne.

Trzy wa Ň ne czynniki – eliminacja tradycyjnych technik wydawniczych, błyskawiczny

rozwój pami ħ ci masowych i, ostatnio, eksplozja internetu – dały w efekcie dost ħ p do

gigantycznych zbiorów tekstowych. R ħ czna ich obsługa jest absolutnie niemo Ň liwa. Nie

chodzi przy tym o materiał empiryczny dla naukowców. Teksty s Ģ w zasi ħ gu r ħ ki szarego

obywatela. Monstrualne zasoby informacji na serwerach internetowych maj Ģ przede

wszystkim posta ę zbiorów tekstowych. Narz ħ dzia operowania takimi zbiorami to wyzwanie

nie tylko dla informatyka; tak Ň e (a nawet przede wszystkim) dla lingwisty.

Dost ħ p do zawarto Ļ ci no Ļ nika umo Ň liwiaj Ģ specjalne aplikacje – ró Ň nego rodzaju

wyszukiwarki. Kiedy piszemy tekst w procesorze komercyjnym, pozwala nam on lokalizowa ę

interesuj Ģ ce nas napisy: obiekty unilateralne. Wystarczy wpisanie odpowiedniego ci Ģ gu

znaków, aby dotrze ę do wszystkich tej sekwencji wyst Ģ pie ı . Szukanie jest trywialne, dotyczy

bowiem kształtów:

Kiedy jednak korzystamy z encyklopedii czy słownika elektronicznego, nie chodzi nam

zwykle o dany napis. Oto wynik poszukiwania jednostki kot w Komputerowym Słowniku

J ħ zyka Polskiego (KSJP):

Szukali Ļ my tutaj jakiej Ļ jednostki bilateralnej – zapewne leksemu. KSJP ujawnił nam

artykuły hasłowe, w których u Ň yto formy leksemu KOT . Co prawda, jedno z pi ħ ciu znalezisk

odrzucimy, bo nie chodziło nam raczej o leksem KOTA ... Otó Ň wi ħ kszo Ļę wyszukiwa ı daje

rezultaty niechciane; taki jest po prostu j ħ zyk naturalny, który roi si ħ od neutralizacji.

Ambitniejsze narz ħ dzia kwerend tekstowych słu ŇĢ poszukiwaniom nie „po kształtach” , jak

si ħ mawia w Ň argonie, tylko po jakich Ļ znacznikach. Wprowadzenie do tekstu znaczników

(tagów), które pomog Ģ w ujednoznacznieniach, jest zadaniem lingwistycznym.

ĺ wiadomo Ļę istnienia narz ħ dzi obsługi tekstów to trzeci komponent kompetencji

współczesnego j ħ zykoznawcy.

5. Wyzwanie homonimii

Zbiór tekstów przygotowany specjalnie do jakiego Ļ celu nazywamy korpusem.

Korpusami posługuj Ģ si ħ j ħ zykoznawcy, przede wszystkim leksykografowie. Korpusy

lingwistyczne bywaj Ģ znakowane, czyli wzbogacone przynajmniej o informacj ħ

gramatyczn Ģ ; docelowo – pewnie pragmatyczn Ģ i semantyczn Ģ .

Polszczyzna reprezentuje klas ħ j ħ zyków wysoce fleksyjnych. Cech Ģ znamienn Ģ takich

j ħ zyków jest homonimiczno Ļę słów. Ostro Ň ny szacunek poucza, Ň e w tek Ļ cie polskim 40 słów

na sto to homonimy, czyli słowa b ħ d Ģ ce kształtami wi ħ cej ni Ň jednej jednostki systemowej.

Fundamentalnym zadaniem lingwistyki informatycznej jest zatem rozwi Ģ zywanie homonimii:

słabe – przypisanie słowom analizowanego tekstu wszystkich interpretacji; mocne –

znalezienie interpretacji wła Ļ ciwej (por. ĺ widzi ı ski, Derwojedowa i Rudolf (2003)).

Warto zaznaczy ę , Ň e jedno z pierwszych w Ļ wiecie przedsi ħ wzi ħę lingwistyki

korpusowej miało miejsce w Polsce i polszczyzny dotyczyło. W latach 1967-1971 powstał w

Uniwersytecie Warszawskim półmilionowy zrównowa Ň ony korpus znakowany, który

posłu Ň ył za baz ħ empiryczn Ģ słownika frekwencyjnego j ħ zyka polskiego. Znakowania dla

ujednoznacznienia słów dokonywano r ħ cznie, ale listy frekwencyjne zostały sporz Ģ dzone

komputerowo. Podstawy gramatyczne projektu były tak solidne, Ň e zachowały aktualno Ļę po

dzi Ļ dzie ı . Słownik ukazał si ħ najpierw w postaci pi ħ ciu tomów (w jedenastu woluminach)

pod tytułem Słownictwo współczesnego j ħ zyka polskiego. Listy frekwencyjne (S-LF). Tomy te

wyszły potem w postaci zbiorczej pod redakcj Ģ Zygmunta Saloniego jako Słownik

frekwencyjny polszczyzny współczesnej (SFPW). SFPW jest słownikiem form wyrazowych

popakowanych w leksemy. Twórcy korpusu przypisywali r ħ cznie znaczniki słowom, które s Ģ

homoformami (Awramiuk (1999)). Nie jest to zatem znakowanie pełne. Ale pocz Ģ tek został

uczyniony.

6. Analizatory i wyszukiwarki

Urz Ģ dzenie do automatycznego rozwi Ģ zywania homonimii to analizator morfologiczny.

Musi on opiera ę si ħ na rygorystycznym opisie gramatycznym danego j ħ zyka. Dorobek

gramatyczny j ħ zykoznawstwa tradycyjnego, z gramatykami Doroszewskiego, Szobera czy

Klemensiewicza na czele, nie spełniał oczywi Ļ cie warunków pełno Ļ ci i jawno Ļ ci. Polszczyzna

doczekała si ħ jednak szcz ħĻ liwie zadowalaj Ģ cych opisów morfologicznych i składniowych –

wymie ı my prace Jana Tokarskiego (SJP Dor. z tzw. „notacj Ģ Tokarskiego”, Tokarski (1973) i

(1990)), Zygmunta Saloniego (1992), (2004), Saloniego i ĺ widzi ı skiego (2001),

Włodzimierza Gruszczy ı skiego (1989), Janusza Stanisława Bienia (1991), a tak Ň e, z innej

szkoły, morfologi ħ z Gramatyki j ħ zyka polskiego PAN (Gramatyka_PAN (1984)). Morfologi ħ

mo Ň na ju Ň było zaimplementowa ę .

Istnieje kilka analizatorów morfologicznych. U schyłku lat 1980. powstał analizator

Roberta Wołosza, znany dzi Ļ pod nazw Ģ PoMoR (por. Wołosz (2005)), analizator SAM

Krzysztofa Szafrana (1994), Morfeusz Marcina Woli ı skiego (2004a), w ko ı cu – AMOR

Joanny Rabiega-Wi Ļ niewskiej i Michała Rudolfa (2003). Analizatory te przypisuj Ģ słowom

zbiory interpretacji gramatycznych.

Analizator dostaje słowo lub list ħ słów do interpretacji. AMOR na przykład

zinterpretuje słowo jutro jako nale ŇĢ ce do leksemu przysłówkowego JUTRO 1 lub

rzeczownikowego JUTRO 2 , czyli dokona rozpoznania cz ħĻ ci mowy ( PoS-tagging ) oraz

rozpoznania leksemu, do którego forma wyrazowa o takim kształcie nale Ň y ( lemmatization );

słowo szkoły – jako reprezentuj Ģ ce cztery formy wyrazowe: dopełniaczow Ģ w liczbie

pojedynczej b Ģ d Ņ mianownikow Ģ , biernikow Ģ albo wołaczow Ģ w mnogiej; słowo czytali –

jako form ħ wyrazow Ģ czasownika CZYTA Ę z pewnym opisem gramatycznym. Program, który

zwraca analizowany tekst z odpowiednimi znacznikami poprzypisywanymi wszystkim

słowom, nazywany bywa tagerem ( tagger ), a efektem pracy takiego programu jest tekst (czy

korpus) znakowany. Na korpusie, znakowanym lub nie, pracuj Ģ dopiero zaawansowane

wyszukiwarki.

Ostatnio zako ı czyły si ħ dwa projekty naukowo-badawcze, których celem było ju Ň to

zbudowanie korpusu znakowanego, ju Ň to opracowanie narz ħ dzi do obsługi korpusu.

Pierwszy z nich realizowany był w Instytucie Podstaw Informatyki PAN pod

kierunkiem Adama Przepiórkowskiego. W ramach projektu KBN 7T11C 043 20 powstał w

latach 2001-2004 100-milionowy anotowany korpus tekstów polskich (Korpus_IPI_PAN),

który nie ma ambicji bycia korpusem lingwistycznie reprezentatywnym, czyli na przykład

zrównowa Ň onym; powstała te Ň wyszukiwarka Poliqarp (por. Przepiórkowski (2004)).

Oto pokaz wyszukiwania:

Świdziński M., Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: