Świdziński M., Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy.pdf

(575 KB) Pobierz
Microsoft Word - ling_kor
„LingVaria” Nr 1, 2006
Lingwistyka korpusowa w Polsce – Ņ ródła, stan, perspektywy
Marek ĺ widzi ı ski
Instytut J ħ zyka Polskiego
Uniwersytet Warszawski
Wst ħ p
Niniejszy szkic, adresowany przede wszystkim do młodego pokolenia lingwistów-
polonistów, przedstawia wizj ħ j ħ zykoznawstwa XXI stulecia. Jest to mianowicie lingwistyka
korpusowa. Rozwija si ħ ona ju Ň od jakiego Ļ czasu; wynikła w sposób naturalny z do Ļę
szcz ħĻ liwego splotu ró Ň norodnych okoliczno Ļ ci; zdominowała inne nurty i odmiany
j ħ zykoznawstwa nieodwracalnie. Nie mo Ň na by ę dzi Ļ j ħ zykoznawc Ģ i nie otrze ę si ħ o ni Ģ
cho ę by jako u Ň ytkownik narz ħ dzi. A skoro tak, to warto wej Ļę w ten Ļ wiat z wyboru, zada ı
bowiem jest moc i b ħ dzie ich coraz wi ħ cej. W Ļ wiecie jest na t ħ najnowsz Ģ lingwistyk ħ , nie na
dowoln Ģ , mnóstwo pieni ħ dzy – i zajmuj Ģ si ħ ni Ģ całe rzesze; to dowodzi, Ň e co Ļ jest na rzeczy,
Ň e czemu Ļ to słu Ň y... Niestety, nie w naszej ojczy Ņ nie.
In Ň ynieri ħ korpusow Ģ przyniosła najmłodsza z długiej serii XX-wiecznych rewolucji –
rewolucja informatyczna. Ale przed ni Ģ zdarzyły si ħ dwie inne rewolucje intelektualne. Marsz
przez te rewolucje stał si ħ udziałem pokole ı j ħ zykoznawców. Drog ħ t ħ przeszedłem i ja.
Rewolucja nr 1: strukturalizm
J ħ zykoznawstwo jako samodzielna dyscyplina liczy sobie niewiele ponad sto lat. Cho ę
w minionych tysi Ģ cleciach znale Ņę mo Ň na wielu wa Ň nych prekursorów, od Paniniego i
Arystotelesa poprzez gramatyków staro Ň ytnego Rzymu po Arnaulda i Lancelota, twórców
Gramatyki Port-Royal , to lingwistyka teoretyczna zrodziła si ħ u schyłku XIX stulecia.
Pierwsza rewolucja jest dziełem Ferdynanda de Saussure’a, j ħ zykoznawcy
szwajcarskiego, profesora uniwersytetów w Genewie i Pary Ň u. Jemu, jego
współpracownikom i wychowankom (którzy zreszt Ģ sami spisali i wydali wykłady mistrza), a
tak Ň e grupie wybitnych nast ħ pców zawdzi ħ czamy sformułowanie koncepcji j ħ zyka
naturalnego jako systemu semiotycznego: to dwuklasowy system znaków słu ŇĢ cy okre Ļ lonej
populacji do komunikacji uniwersalnej. Lingwistyka dostała aparat, który jest dzi Ļ
oczywisto Ļ ci Ģ : (a) synchronia przede wszystkim, (b) abstrakcyjny system ( langue ) i
konkretny tekst ( parole ), (c) znak – obiekt o dwóch twarzach: ma kształt i funkcj ħ , (d)
opozycja – ró Ň nica kształtu obci ĢŇ ona funkcjonalnie, (e) paradygmatyka i syntagmatyka, (f)
słownik – zbiór znaków prostych, gramatyka – zbiór instrukcji syntezy i rozbioru wyra Ň e ı ,
(g) inwarianty i warianty. Teoria de Saussure’a dotarła do Polski z gór Ģ pół wieku od jej
powstania – przekład polski jego wykładów ukazał si ħ w roku 1961 (Saussure (1961)).
Koryfeuszy ówczesnego j ħ zykoznawstwa w Polsce nie zainteresowała.
Strukturalizm, który wyrósł z idei de Saussure’a, wyzwolił j ħ zykoznawstwo – nauk ħ
empiryczn Ģ – z oków humanistycznej filologii. Filolodzy zajmowali si ħ przez stulecia
tekstami (czy kawałkami tekstów) i pochodzeniem; strukturalizm podj Ģ ł problem budowy i
funkcji wyra Ň e ı . Strukturalny opis pewnego obiektu przyrodniczego jako pary <słownik,
gramatyka> daje model rodzimego u Ň ytkownika j ħ zyka; elementy tej pary to składniki
kompetencji j ħ zykowej. Doktryna strukturalna opanowała Ļ wiat lingwistyki pierwszej połowy
zeszłego stulecia, a my Ļ lenie systemowe, rzecz ciekawa, promieniowało na inne działy
humanistyki.
Nie miejsce tu na wykład ró Ň nych szkół europejskiego j ħ zykoznawstwa strukturalnego.
Trzeba wszak Ň e wspomnie ę o strukturalizmie ameryka ı skim, czyli dystrybucjonizmie, od
1.
2.
niego bowiem do NLP ( Natural Language Processing ) tylko krok. Dystrybucjoni Ļ ci to
pierwsi teoretycy, którzy budowali korpusy – zbiory wyra Ň e ı traktowane jako reprezentuj Ģ ce
dany j ħ zyk naturalny. Od nich pochodzi inne ni Ň nasze europejskie rozumienie j ħ zyka
naturalnego. Jest nim zbiór zda ı poprawnych i tylko takich. Opis (czy model) danego j ħ zyka
to recepta na wyra Ň enia tego j ħ zyka.
Strukturali Ļ ci, zapewne jako pierwsi w historii lingwistyki, podj ħ li si ħ sporz Ģ dzania
wyczerpuj Ģ cych opisów ró Ň nych j ħ zyków naturalnych, opisów całego j ħ zyka. Za przykład
niech posłu Ň y Ottona Jespersena monumentalna gramatyka angielska (Jespersen 1909-1949).
To, Ň e nowoczesna lingwistyka rozwin ħ ła si ħ najowocniej w kr ħ gu anglosaskim, jest pewnie
zasług Ģ Jespersena.
Warsztat strukturalizmu to pierwszy składnik kompetencji współczesnego
j ħ zykoznawcy.
3. Rewolucja nr 2: generatywizm i lingwistyka formalna
Drug Ģ rewolucj ħ potrafimy dokładnie datowa ę . W roku 1957 ukazały si ħ w
wydawnictwie Moutona Struktury składniowe Noama Chomsky’ego (1957). Ów „przewrót
kopernika ı ski” polega ę miał na odrzuceniu tradycji strukturalistycznej. Chomsky uwa Ň ał, Ň e
strukturalizm nie ujawnia tego, Ň e kompetencja j ħ zykowa jest produktywna; Ň e, innymi
słowy, u Ň ytkownik j ħ zyka potrafi interpretowa ę wyra Ň enia, których nigdy nie słyszał, i nowe
wyra Ň enia produkowa ę . Ale Chomsky’ego krytyka strukturalizmu (niezbyt zreszt Ģ
sprawiedliwa) dotyka co najwy Ň ej dystrybucjonizmu, i to wcale nie jego litery. Kamieniem
obrazy jest dla Chomsky’ego ograniczono Ļę korpusów, którymi posiłkowali si ħ
dystrybucjoni Ļ ci. Dla nich korpus był Ņ ródłem danych empirycznych. Poniewa Ň podejmowali
trud opisywania ró Ň nych j ħ zyków dot Ģ d nie opisywanych, w szczególno Ļ ci j ħ zyków Indian,
którzy wymierali, korpusy z natury rzeczy nie mogły by ę du Ň e. Wielkich zreszt Ģ nie dałoby
si ħ obj Ģę ogl Ģ dem.
Chomsky, krytyk dystrybucjonizmu, korzysta jednak szeroko z tamtej aparatury
poj ħ ciowej. Przede wszystkim, id Ģ c Ļ ladem dystrybucjonistów, ujmuje j ħ zyk naturalny
teoriomnogo Ļ ciowo: to zbiór wszystkich mo Ň liwych zda ı , zbiór niesko ı czony. Opis j ħ zyka, a
wi ħ c jego gramatyka, jest tego zbioru definicj Ģ . Definicj ħ tak Ģ nazywamy gramatyk Ģ
formaln Ģ . Słownik jako zbiór pewnych składników prostych nale Ň y do gramatyki.
Ju Ň od półwiecza Chomsky nosi szat ħ guru współczesnej lingwistyki. Z gramatyki
generatywno-transformacyjnej, której ide ħ wyło Ň ył w Stukturach składniowych , wyrosły
kolejne jej mutacje – rozszerzona teoria standardowa (EST), wprowadzona w Aspektach teorii
składni Chomsky’ego (1966), a tak Ň e teoria rz Ģ du i wi Ģ zania (GB; Haegemann (1992)) oraz
minimalizm; te dwie ostatnie – z nieistotn Ģ dla nas tutaj filozoficzn Ģ obudow Ģ Gramatyki
Uniwersalnej. Zrodziły si ħ te Ň w ci Ģ gu dziesi ħ cioleci inne teorie, znacznie lepiej dopracowane
formalnie, zwłaszcza HPSG (Pollard i Sag (1994)). W ramach tych aparatów powstała i
powstaje gigantyczna literatura na temat najrozmaitszych j ħ zyków, od staroislandzkiego po
warlpiri. Mo Ň na powiedzie ę bez przesady, Ň e du Ň a cz ħĻę populacji lingwistów na Ļ wiecie
działa w kr ħ gu generatywizmu chomskia ı skiego. Nie dotyczy to, niestety, Polski, w której
ziemi ħ t ħ uprawiaj Ģ niemal wył Ģ cznie angli Ļ ci. Opisuj Ģ oni zreszt Ģ głównie polszczyzn ħ ;
obszerny zestaw odesła ı do publikacji polskich generatywistów znale Ņę mo Ň na na przykład w
tomie studiów po Ļ wi ħ conych HPSG (Przepiórkowski i in. (2002)). Znamienne, Ň e polski
przekład Aspektów Chomsky’ego (1982) przeszedł bez echa. Dopiero ostatnio pojawiło si ħ
popularne kompendium generatywizmu (Mecner (2004)). Generatywizm nie stworzył
wszak Ň e wielkich syntez, a wi ħ c wyczerpuj Ģ cych opisów poszczególnych j ħ zyków; cho ę by
tych najwa Ň niejszych.
Dobra znajomo Ļę narz ħ dzi generatywizmu to drugi składnik kompetencji
współczesnego j ħ zykoznawcy.
Rewolucja nr 3: lingwistyka informatyczna
O ile dwie poprzednie rewolucje wynikły, by tak rzec, w toku normalnego rozwoju
my Ļ lowego pewnej dyscypliny, rewolucja ostatnia przyszła z zewn Ģ trz, i to bardzo niedawno.
Komputery, jeszcze w połowie ubiegłego wieku pracuj Ģ ce w Pentagonie, agencjach
kosmicznych czy o Ļ rodkach obliczeniowych, trafiły pod strzechy, aby sta ę si ħ standardowym
urz Ģ dzeniem gospodarstwa domowego. Co wi ħ cej, w ci Ģ gu parunastu lat wymarł pewien fach:
zawód zecera. Skład komputerowy to wyrok Ļ mierci dla drukarstwa Gutenberga.
I jeszcze jeden zbieg okoliczno Ļ ci. Oto w latach 1970. rozpocz ħ ła si ħ współpraca
mi ħ dzy grup Ģ informatyków z Wydziału Matematyki Uniwersytetu Warszawskiego i grup Ģ
j ħ zykoznawców Wydziału Polonistyki. Do tej kooperacji obie strony były wtedy dobrze
przygotowane, podobnie jak pó Ņ niej – do podj ħ cia zaawansowanych prac w zakresie
lingwistyki informatycznej. Ni Ň ej b ħ dzie mowa o niektórych przedsi ħ wzi ħ ciach, które
wyrosły z owego zbli Ň enia dwóch Ļ rodowisk. Poka Ňħ tu w szczególno Ļ ci prace powstałe w
Ļ rodowisku warszawskim, zwłaszcza w Zakładzie J ħ zykoznawstwa Komputerowego, którym
kieruj ħ . Skupienie si ħ tutaj na nich nie ma oznacza ę , Ň e nigdzie indziej nie działo si ħ i nie
dzieje nic, co dla dyscypliny wa Ň ne.
Trzy wa Ň ne czynniki – eliminacja tradycyjnych technik wydawniczych, błyskawiczny
rozwój pami ħ ci masowych i, ostatnio, eksplozja internetu – dały w efekcie dost ħ p do
gigantycznych zbiorów tekstowych. R ħ czna ich obsługa jest absolutnie niemo Ň liwa. Nie
chodzi przy tym o materiał empiryczny dla naukowców. Teksty s Ģ w zasi ħ gu r ħ ki szarego
obywatela. Monstrualne zasoby informacji na serwerach internetowych maj Ģ przede
wszystkim posta ę zbiorów tekstowych. Narz ħ dzia operowania takimi zbiorami to wyzwanie
nie tylko dla informatyka; tak Ň e (a nawet przede wszystkim) dla lingwisty.
Dost ħ p do zawarto Ļ ci no Ļ nika umo Ň liwiaj Ģ specjalne aplikacje – ró Ň nego rodzaju
wyszukiwarki. Kiedy piszemy tekst w procesorze komercyjnym, pozwala nam on lokalizowa ę
interesuj Ģ ce nas napisy: obiekty unilateralne. Wystarczy wpisanie odpowiedniego ci Ģ gu
znaków, aby dotrze ę do wszystkich tej sekwencji wyst Ģ pie ı . Szukanie jest trywialne, dotyczy
bowiem kształtów:
Kiedy jednak korzystamy z encyklopedii czy słownika elektronicznego, nie chodzi nam
zwykle o dany napis. Oto wynik poszukiwania jednostki kot w Komputerowym Słowniku
J ħ zyka Polskiego (KSJP):
4.
501377848.001.png
Szukali Ļ my tutaj jakiej Ļ jednostki bilateralnej – zapewne leksemu. KSJP ujawnił nam
artykuły hasłowe, w których u Ň yto formy leksemu KOT . Co prawda, jedno z pi ħ ciu znalezisk
odrzucimy, bo nie chodziło nam raczej o leksem KOTA ... Otó Ň wi ħ kszo Ļę wyszukiwa ı daje
rezultaty niechciane; taki jest po prostu j ħ zyk naturalny, który roi si ħ od neutralizacji.
Ambitniejsze narz ħ dzia kwerend tekstowych słu ŇĢ poszukiwaniom nie „po kształtach” , jak
si ħ mawia w Ň argonie, tylko po jakich Ļ znacznikach. Wprowadzenie do tekstu znaczników
(tagów), które pomog Ģ w ujednoznacznieniach, jest zadaniem lingwistycznym.
ĺ wiadomo Ļę istnienia narz ħ dzi obsługi tekstów to trzeci komponent kompetencji
współczesnego j ħ zykoznawcy.
5. Wyzwanie homonimii
Zbiór tekstów przygotowany specjalnie do jakiego Ļ celu nazywamy korpusem.
Korpusami posługuj Ģ si ħ j ħ zykoznawcy, przede wszystkim leksykografowie. Korpusy
lingwistyczne bywaj Ģ znakowane, czyli wzbogacone przynajmniej o informacj ħ
gramatyczn Ģ ; docelowo – pewnie pragmatyczn Ģ i semantyczn Ģ .
Polszczyzna reprezentuje klas ħ j ħ zyków wysoce fleksyjnych. Cech Ģ znamienn Ģ takich
j ħ zyków jest homonimiczno Ļę słów. Ostro Ň ny szacunek poucza, Ň e w tek Ļ cie polskim 40 słów
na sto to homonimy, czyli słowa b ħ d Ģ ce kształtami wi ħ cej ni Ň jednej jednostki systemowej.
Fundamentalnym zadaniem lingwistyki informatycznej jest zatem rozwi Ģ zywanie homonimii:
słabe – przypisanie słowom analizowanego tekstu wszystkich interpretacji; mocne –
znalezienie interpretacji wła Ļ ciwej (por. ĺ widzi ı ski, Derwojedowa i Rudolf (2003)).
Warto zaznaczy ę , Ň e jedno z pierwszych w Ļ wiecie przedsi ħ wzi ħę lingwistyki
korpusowej miało miejsce w Polsce i polszczyzny dotyczyło. W latach 1967-1971 powstał w
Uniwersytecie Warszawskim półmilionowy zrównowa Ň ony korpus znakowany, który
posłu Ň ył za baz ħ empiryczn Ģ słownika frekwencyjnego j ħ zyka polskiego. Znakowania dla
ujednoznacznienia słów dokonywano r ħ cznie, ale listy frekwencyjne zostały sporz Ģ dzone
komputerowo. Podstawy gramatyczne projektu były tak solidne, Ň e zachowały aktualno Ļę po
dzi Ļ dzie ı . Słownik ukazał si ħ najpierw w postaci pi ħ ciu tomów (w jedenastu woluminach)
pod tytułem Słownictwo współczesnego j ħ zyka polskiego. Listy frekwencyjne (S-LF). Tomy te
wyszły potem w postaci zbiorczej pod redakcj Ģ Zygmunta Saloniego jako Słownik
frekwencyjny polszczyzny współczesnej (SFPW). SFPW jest słownikiem form wyrazowych
popakowanych w leksemy. Twórcy korpusu przypisywali r ħ cznie znaczniki słowom, które s Ģ
homoformami (Awramiuk (1999)). Nie jest to zatem znakowanie pełne. Ale pocz Ģ tek został
uczyniony.
501377848.002.png
6. Analizatory i wyszukiwarki
Urz Ģ dzenie do automatycznego rozwi Ģ zywania homonimii to analizator morfologiczny.
Musi on opiera ę si ħ na rygorystycznym opisie gramatycznym danego j ħ zyka. Dorobek
gramatyczny j ħ zykoznawstwa tradycyjnego, z gramatykami Doroszewskiego, Szobera czy
Klemensiewicza na czele, nie spełniał oczywi Ļ cie warunków pełno Ļ ci i jawno Ļ ci. Polszczyzna
doczekała si ħ jednak szcz ħĻ liwie zadowalaj Ģ cych opisów morfologicznych i składniowych –
wymie ı my prace Jana Tokarskiego (SJP Dor. z tzw. „notacj Ģ Tokarskiego”, Tokarski (1973) i
(1990)), Zygmunta Saloniego (1992), (2004), Saloniego i ĺ widzi ı skiego (2001),
Włodzimierza Gruszczy ı skiego (1989), Janusza Stanisława Bienia (1991), a tak Ň e, z innej
szkoły, morfologi ħ z Gramatyki j ħ zyka polskiego PAN (Gramatyka_PAN (1984)). Morfologi ħ
mo Ň na ju Ň było zaimplementowa ę .
Istnieje kilka analizatorów morfologicznych. U schyłku lat 1980. powstał analizator
Roberta Wołosza, znany dzi Ļ pod nazw Ģ PoMoR (por. Wołosz (2005)), analizator SAM
Krzysztofa Szafrana (1994), Morfeusz Marcina Woli ı skiego (2004a), w ko ı cu – AMOR
Joanny Rabiega-Wi Ļ niewskiej i Michała Rudolfa (2003). Analizatory te przypisuj Ģ słowom
zbiory interpretacji gramatycznych.
Analizator dostaje słowo lub list ħ słów do interpretacji. AMOR na przykład
zinterpretuje słowo jutro jako nale ŇĢ ce do leksemu przysłówkowego JUTRO 1 lub
rzeczownikowego JUTRO 2 , czyli dokona rozpoznania cz ħĻ ci mowy ( PoS-tagging ) oraz
rozpoznania leksemu, do którego forma wyrazowa o takim kształcie nale Ň y ( lemmatization );
słowo szkoły – jako reprezentuj Ģ ce cztery formy wyrazowe: dopełniaczow Ģ w liczbie
pojedynczej b Ģ d Ņ mianownikow Ģ , biernikow Ģ albo wołaczow Ģ w mnogiej; słowo czytali
jako form ħ wyrazow Ģ czasownika CZYTA Ę z pewnym opisem gramatycznym. Program, który
zwraca analizowany tekst z odpowiednimi znacznikami poprzypisywanymi wszystkim
słowom, nazywany bywa tagerem ( tagger ), a efektem pracy takiego programu jest tekst (czy
korpus) znakowany. Na korpusie, znakowanym lub nie, pracuj Ģ dopiero zaawansowane
wyszukiwarki.
Ostatnio zako ı czyły si ħ dwa projekty naukowo-badawcze, których celem było ju Ň to
zbudowanie korpusu znakowanego, ju Ň to opracowanie narz ħ dzi do obsługi korpusu.
Pierwszy z nich realizowany był w Instytucie Podstaw Informatyki PAN pod
kierunkiem Adama Przepiórkowskiego. W ramach projektu KBN 7T11C 043 20 powstał w
latach 2001-2004 100-milionowy anotowany korpus tekstów polskich (Korpus_IPI_PAN),
który nie ma ambicji bycia korpusem lingwistycznie reprezentatywnym, czyli na przykład
zrównowa Ň onym; powstała te Ň wyszukiwarka Poliqarp (por. Przepiórkowski (2004)).
Oto pokaz wyszukiwania:
Zgłoś jeśli naruszono regulamin