Świdziński M., Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy.pdf
(
575 KB
)
Pobierz
Microsoft Word - ling_kor
„LingVaria” Nr 1, 2006
Lingwistyka korpusowa w Polsce –
Ņ
ródła, stan, perspektywy
Marek
ĺ
widzi
ı
ski
Instytut J
ħ
zyka Polskiego
Uniwersytet Warszawski
Wst
ħ
p
Niniejszy szkic, adresowany przede wszystkim do młodego pokolenia lingwistów-
polonistów, przedstawia wizj
ħ
j
ħ
zykoznawstwa XXI stulecia. Jest to mianowicie lingwistyka
korpusowa. Rozwija si
ħ
ona ju
Ň
od jakiego
Ļ
czasu; wynikła w sposób naturalny z do
Ļę
szcz
ħĻ
liwego splotu ró
Ň
norodnych okoliczno
Ļ
ci; zdominowała inne nurty i odmiany
j
ħ
zykoznawstwa nieodwracalnie. Nie mo
Ň
na by
ę
dzi
Ļ
j
ħ
zykoznawc
Ģ
i nie otrze
ę
si
ħ
o ni
Ģ
cho
ę
by jako u
Ň
ytkownik narz
ħ
dzi. A skoro tak, to warto wej
Ļę
w ten
Ļ
wiat z wyboru, zada
ı
bowiem jest moc i b
ħ
dzie ich coraz wi
ħ
cej. W
Ļ
wiecie jest na t
ħ
najnowsz
Ģ
lingwistyk
ħ
, nie na
dowoln
Ģ
, mnóstwo pieni
ħ
dzy – i zajmuj
Ģ
si
ħ
ni
Ģ
całe rzesze; to dowodzi,
Ň
e co
Ļ
jest na rzeczy,
Ň
e czemu
Ļ
to słu
Ň
y... Niestety, nie w naszej ojczy
Ņ
nie.
In
Ň
ynieri
ħ
korpusow
Ģ
przyniosła najmłodsza z długiej serii XX-wiecznych rewolucji –
rewolucja informatyczna. Ale przed ni
Ģ
zdarzyły si
ħ
dwie inne rewolucje intelektualne. Marsz
przez te rewolucje stał si
ħ
udziałem pokole
ı
j
ħ
zykoznawców. Drog
ħ
t
ħ
przeszedłem i ja.
Rewolucja nr 1: strukturalizm
J
ħ
zykoznawstwo jako samodzielna dyscyplina liczy sobie niewiele ponad sto lat. Cho
ę
w minionych tysi
Ģ
cleciach znale
Ņę
mo
Ň
na wielu wa
Ň
nych prekursorów, od Paniniego i
Arystotelesa poprzez gramatyków staro
Ň
ytnego Rzymu po Arnaulda i Lancelota, twórców
Gramatyki Port-Royal
, to lingwistyka teoretyczna zrodziła si
ħ
u schyłku XIX stulecia.
Pierwsza rewolucja jest dziełem Ferdynanda de Saussure’a, j
ħ
zykoznawcy
szwajcarskiego, profesora uniwersytetów w Genewie i Pary
Ň
u. Jemu, jego
współpracownikom i wychowankom (którzy zreszt
Ģ
sami spisali i wydali wykłady mistrza), a
tak
Ň
e grupie wybitnych nast
ħ
pców zawdzi
ħ
czamy sformułowanie koncepcji j
ħ
zyka
naturalnego jako systemu semiotycznego: to dwuklasowy system znaków słu
ŇĢ
cy okre
Ļ
lonej
populacji do komunikacji uniwersalnej. Lingwistyka dostała aparat, który jest dzi
Ļ
oczywisto
Ļ
ci
Ģ
: (a) synchronia przede wszystkim, (b) abstrakcyjny system (
langue
) i
konkretny tekst (
parole
), (c) znak – obiekt o dwóch twarzach: ma kształt i funkcj
ħ
, (d)
opozycja – ró
Ň
nica kształtu obci
ĢŇ
ona funkcjonalnie, (e) paradygmatyka i syntagmatyka, (f)
słownik – zbiór znaków prostych, gramatyka – zbiór instrukcji syntezy i rozbioru wyra
Ň
e
ı
,
(g) inwarianty i warianty. Teoria de Saussure’a dotarła do Polski z gór
Ģ
pół wieku od jej
powstania – przekład polski jego wykładów ukazał si
ħ
w roku 1961 (Saussure (1961)).
Koryfeuszy ówczesnego j
ħ
zykoznawstwa w Polsce nie zainteresowała.
Strukturalizm, który wyrósł z idei de Saussure’a, wyzwolił j
ħ
zykoznawstwo – nauk
ħ
empiryczn
Ģ
– z oków humanistycznej filologii. Filolodzy zajmowali si
ħ
przez stulecia
tekstami (czy kawałkami tekstów) i pochodzeniem; strukturalizm podj
Ģ
ł problem budowy i
funkcji wyra
Ň
e
ı
. Strukturalny opis pewnego obiektu przyrodniczego jako pary <słownik,
gramatyka> daje model rodzimego u
Ň
ytkownika j
ħ
zyka; elementy tej pary to składniki
kompetencji j
ħ
zykowej. Doktryna strukturalna opanowała
Ļ
wiat lingwistyki pierwszej połowy
zeszłego stulecia, a my
Ļ
lenie systemowe, rzecz ciekawa, promieniowało na inne działy
humanistyki.
Nie miejsce tu na wykład ró
Ň
nych szkół europejskiego j
ħ
zykoznawstwa strukturalnego.
Trzeba wszak
Ň
e wspomnie
ę
o strukturalizmie ameryka
ı
skim, czyli dystrybucjonizmie, od
1.
2.
niego bowiem do
NLP
(
Natural Language Processing
) tylko krok. Dystrybucjoni
Ļ
ci to
pierwsi teoretycy, którzy budowali korpusy – zbiory wyra
Ň
e
ı
traktowane jako reprezentuj
Ģ
ce
dany j
ħ
zyk naturalny. Od nich pochodzi inne ni
Ň
nasze europejskie rozumienie j
ħ
zyka
naturalnego. Jest nim zbiór zda
ı
poprawnych i tylko takich. Opis (czy model) danego j
ħ
zyka
to recepta na wyra
Ň
enia tego j
ħ
zyka.
Strukturali
Ļ
ci, zapewne jako pierwsi w historii lingwistyki, podj
ħ
li si
ħ
sporz
Ģ
dzania
wyczerpuj
Ģ
cych opisów ró
Ň
nych j
ħ
zyków naturalnych, opisów
całego
j
ħ
zyka. Za przykład
niech posłu
Ň
y Ottona Jespersena monumentalna gramatyka angielska (Jespersen 1909-1949).
To,
Ň
e nowoczesna lingwistyka rozwin
ħ
ła si
ħ
najowocniej w kr
ħ
gu anglosaskim, jest pewnie
zasług
Ģ
Jespersena.
Warsztat strukturalizmu to pierwszy składnik kompetencji współczesnego
j
ħ
zykoznawcy.
3. Rewolucja nr 2: generatywizm i lingwistyka formalna
Drug
Ģ
rewolucj
ħ
potrafimy dokładnie datowa
ę
. W roku 1957 ukazały si
ħ
w
wydawnictwie Moutona
Struktury składniowe
Noama Chomsky’ego (1957). Ów „przewrót
kopernika
ı
ski” polega
ę
miał na odrzuceniu tradycji strukturalistycznej. Chomsky uwa
Ň
ał,
Ň
e
strukturalizm nie ujawnia tego,
Ň
e kompetencja j
ħ
zykowa jest produktywna;
Ň
e, innymi
słowy, u
Ň
ytkownik j
ħ
zyka potrafi interpretowa
ę
wyra
Ň
enia, których nigdy nie słyszał, i nowe
wyra
Ň
enia produkowa
ę
. Ale Chomsky’ego krytyka strukturalizmu (niezbyt zreszt
Ģ
sprawiedliwa) dotyka co najwy
Ň
ej dystrybucjonizmu, i to wcale nie jego litery. Kamieniem
obrazy jest dla Chomsky’ego ograniczono
Ļę
korpusów, którymi posiłkowali si
ħ
dystrybucjoni
Ļ
ci. Dla nich korpus był
Ņ
ródłem danych empirycznych. Poniewa
Ň
podejmowali
trud opisywania ró
Ň
nych j
ħ
zyków dot
Ģ
d nie opisywanych, w szczególno
Ļ
ci j
ħ
zyków Indian,
którzy wymierali, korpusy z natury rzeczy nie mogły by
ę
du
Ň
e. Wielkich zreszt
Ģ
nie dałoby
si
ħ
obj
Ģę
ogl
Ģ
dem.
Chomsky, krytyk dystrybucjonizmu, korzysta jednak szeroko z tamtej aparatury
poj
ħ
ciowej. Przede wszystkim, id
Ģ
c
Ļ
ladem dystrybucjonistów, ujmuje j
ħ
zyk naturalny
teoriomnogo
Ļ
ciowo: to zbiór wszystkich mo
Ň
liwych zda
ı
, zbiór niesko
ı
czony. Opis j
ħ
zyka, a
wi
ħ
c jego gramatyka, jest tego zbioru definicj
Ģ
. Definicj
ħ
tak
Ģ
nazywamy gramatyk
Ģ
formaln
Ģ
. Słownik jako zbiór pewnych składników prostych nale
Ň
y do gramatyki.
Ju
Ň
od półwiecza Chomsky nosi szat
ħ
guru współczesnej lingwistyki. Z gramatyki
generatywno-transformacyjnej, której ide
ħ
wyło
Ň
ył w
Stukturach składniowych
, wyrosły
kolejne jej mutacje – rozszerzona teoria standardowa (EST), wprowadzona w
Aspektach teorii
składni
Chomsky’ego (1966), a tak
Ň
e teoria rz
Ģ
du i wi
Ģ
zania (GB; Haegemann (1992)) oraz
minimalizm; te dwie ostatnie – z nieistotn
Ģ
dla nas tutaj filozoficzn
Ģ
obudow
Ģ
Gramatyki
Uniwersalnej. Zrodziły si
ħ
te
Ň
w ci
Ģ
gu dziesi
ħ
cioleci inne teorie, znacznie lepiej dopracowane
formalnie, zwłaszcza HPSG (Pollard i Sag (1994)). W ramach tych aparatów powstała i
powstaje gigantyczna literatura na temat najrozmaitszych j
ħ
zyków, od staroislandzkiego po
warlpiri. Mo
Ň
na powiedzie
ę
bez przesady,
Ň
e du
Ň
a cz
ħĻę
populacji lingwistów na
Ļ
wiecie
działa w kr
ħ
gu generatywizmu chomskia
ı
skiego. Nie dotyczy to, niestety, Polski, w której
ziemi
ħ
t
ħ
uprawiaj
Ģ
niemal wył
Ģ
cznie angli
Ļ
ci. Opisuj
Ģ
oni zreszt
Ģ
głównie polszczyzn
ħ
;
obszerny zestaw odesła
ı
do publikacji polskich generatywistów znale
Ņę
mo
Ň
na na przykład w
tomie studiów po
Ļ
wi
ħ
conych HPSG (Przepiórkowski i in. (2002)). Znamienne,
Ň
e polski
przekład
Aspektów
Chomsky’ego (1982) przeszedł bez echa. Dopiero ostatnio pojawiło si
ħ
popularne kompendium generatywizmu (Mecner (2004)). Generatywizm nie stworzył
wszak
Ň
e wielkich syntez, a wi
ħ
c wyczerpuj
Ģ
cych opisów poszczególnych j
ħ
zyków; cho
ę
by
tych najwa
Ň
niejszych.
Dobra znajomo
Ļę
narz
ħ
dzi generatywizmu to drugi składnik kompetencji
współczesnego j
ħ
zykoznawcy.
Rewolucja nr 3: lingwistyka informatyczna
O ile dwie poprzednie rewolucje wynikły, by tak rzec, w toku normalnego rozwoju
my
Ļ
lowego pewnej dyscypliny, rewolucja ostatnia przyszła z zewn
Ģ
trz, i to bardzo niedawno.
Komputery, jeszcze w połowie ubiegłego wieku pracuj
Ģ
ce w Pentagonie, agencjach
kosmicznych czy o
Ļ
rodkach obliczeniowych, trafiły pod strzechy, aby sta
ę
si
ħ
standardowym
urz
Ģ
dzeniem gospodarstwa domowego. Co wi
ħ
cej, w ci
Ģ
gu parunastu lat wymarł pewien fach:
zawód zecera. Skład komputerowy to wyrok
Ļ
mierci dla drukarstwa Gutenberga.
I jeszcze jeden zbieg okoliczno
Ļ
ci. Oto w latach 1970. rozpocz
ħ
ła si
ħ
współpraca
mi
ħ
dzy grup
Ģ
informatyków z Wydziału Matematyki Uniwersytetu Warszawskiego i grup
Ģ
j
ħ
zykoznawców Wydziału Polonistyki. Do tej kooperacji obie strony były wtedy dobrze
przygotowane, podobnie jak pó
Ņ
niej – do podj
ħ
cia zaawansowanych prac w zakresie
lingwistyki informatycznej. Ni
Ň
ej b
ħ
dzie mowa o niektórych przedsi
ħ
wzi
ħ
ciach, które
wyrosły z owego zbli
Ň
enia dwóch
Ļ
rodowisk. Poka
Ňħ
tu w szczególno
Ļ
ci prace powstałe w
Ļ
rodowisku warszawskim, zwłaszcza w Zakładzie J
ħ
zykoznawstwa Komputerowego, którym
kieruj
ħ
. Skupienie si
ħ
tutaj na nich nie ma oznacza
ę
,
Ň
e nigdzie indziej nie działo si
ħ
i nie
dzieje nic, co dla dyscypliny wa
Ň
ne.
Trzy wa
Ň
ne czynniki – eliminacja tradycyjnych technik wydawniczych, błyskawiczny
rozwój pami
ħ
ci masowych i, ostatnio, eksplozja internetu – dały w efekcie dost
ħ
p do
gigantycznych zbiorów tekstowych. R
ħ
czna ich obsługa jest absolutnie niemo
Ň
liwa. Nie
chodzi przy tym o materiał empiryczny dla naukowców. Teksty s
Ģ
w zasi
ħ
gu r
ħ
ki szarego
obywatela. Monstrualne zasoby informacji na serwerach internetowych maj
Ģ
przede
wszystkim posta
ę
zbiorów tekstowych. Narz
ħ
dzia operowania takimi zbiorami to wyzwanie
nie tylko dla informatyka; tak
Ň
e (a nawet przede wszystkim) dla lingwisty.
Dost
ħ
p do zawarto
Ļ
ci no
Ļ
nika umo
Ň
liwiaj
Ģ
specjalne aplikacje – ró
Ň
nego rodzaju
wyszukiwarki. Kiedy piszemy tekst w procesorze komercyjnym, pozwala nam on lokalizowa
ę
interesuj
Ģ
ce nas napisy: obiekty unilateralne. Wystarczy wpisanie odpowiedniego ci
Ģ
gu
znaków, aby dotrze
ę
do wszystkich tej sekwencji wyst
Ģ
pie
ı
. Szukanie jest trywialne, dotyczy
bowiem kształtów:
Kiedy jednak korzystamy z encyklopedii czy słownika elektronicznego, nie chodzi nam
zwykle o dany napis. Oto wynik poszukiwania jednostki
kot
w
Komputerowym Słowniku
J
ħ
zyka Polskiego
(KSJP):
4.
Szukali
Ļ
my tutaj jakiej
Ļ
jednostki bilateralnej – zapewne leksemu. KSJP ujawnił nam
artykuły hasłowe, w których u
Ň
yto formy leksemu
KOT
. Co prawda, jedno z pi
ħ
ciu znalezisk
odrzucimy, bo nie chodziło nam raczej o leksem
KOTA
... Otó
Ň
wi
ħ
kszo
Ļę
wyszukiwa
ı
daje
rezultaty niechciane; taki jest po prostu j
ħ
zyk naturalny, który roi si
ħ
od neutralizacji.
Ambitniejsze narz
ħ
dzia kwerend tekstowych słu
ŇĢ
poszukiwaniom nie „po kształtach” , jak
si
ħ
mawia w
Ň
argonie, tylko po jakich
Ļ
znacznikach. Wprowadzenie do tekstu znaczników
(tagów), które pomog
Ģ
w ujednoznacznieniach, jest zadaniem lingwistycznym.
ĺ
wiadomo
Ļę
istnienia narz
ħ
dzi obsługi tekstów to trzeci komponent kompetencji
współczesnego j
ħ
zykoznawcy.
5. Wyzwanie homonimii
Zbiór tekstów przygotowany specjalnie do jakiego
Ļ
celu nazywamy korpusem.
Korpusami posługuj
Ģ
si
ħ
j
ħ
zykoznawcy, przede wszystkim leksykografowie. Korpusy
lingwistyczne bywaj
Ģ
znakowane, czyli wzbogacone przynajmniej o informacj
ħ
gramatyczn
Ģ
; docelowo – pewnie pragmatyczn
Ģ
i semantyczn
Ģ
.
Polszczyzna reprezentuje klas
ħ
j
ħ
zyków wysoce fleksyjnych. Cech
Ģ
znamienn
Ģ
takich
j
ħ
zyków jest homonimiczno
Ļę
słów. Ostro
Ň
ny szacunek poucza,
Ň
e w tek
Ļ
cie polskim 40 słów
na sto to homonimy, czyli słowa b
ħ
d
Ģ
ce kształtami wi
ħ
cej ni
Ň
jednej jednostki systemowej.
Fundamentalnym zadaniem lingwistyki informatycznej jest zatem rozwi
Ģ
zywanie homonimii:
słabe – przypisanie słowom analizowanego tekstu wszystkich interpretacji; mocne –
znalezienie interpretacji wła
Ļ
ciwej (por.
ĺ
widzi
ı
ski, Derwojedowa i Rudolf (2003)).
Warto zaznaczy
ę
,
Ň
e jedno z pierwszych w
Ļ
wiecie przedsi
ħ
wzi
ħę
lingwistyki
korpusowej miało miejsce w Polsce i polszczyzny dotyczyło. W latach 1967-1971 powstał w
Uniwersytecie Warszawskim półmilionowy zrównowa
Ň
ony korpus znakowany, który
posłu
Ň
ył za baz
ħ
empiryczn
Ģ
słownika frekwencyjnego j
ħ
zyka polskiego. Znakowania dla
ujednoznacznienia słów dokonywano r
ħ
cznie, ale listy frekwencyjne zostały sporz
Ģ
dzone
komputerowo. Podstawy gramatyczne projektu były tak solidne,
Ň
e zachowały aktualno
Ļę
po
dzi
Ļ
dzie
ı
. Słownik ukazał si
ħ
najpierw w postaci pi
ħ
ciu tomów (w jedenastu woluminach)
pod tytułem
Słownictwo współczesnego j
ħ
zyka polskiego. Listy frekwencyjne
(S-LF). Tomy te
wyszły potem w postaci zbiorczej pod redakcj
Ģ
Zygmunta Saloniego jako
Słownik
frekwencyjny polszczyzny współczesnej
(SFPW). SFPW jest słownikiem form wyrazowych
popakowanych w leksemy. Twórcy korpusu przypisywali r
ħ
cznie znaczniki słowom, które s
Ģ
homoformami (Awramiuk (1999)). Nie jest to zatem znakowanie pełne. Ale pocz
Ģ
tek został
uczyniony.
6. Analizatory i wyszukiwarki
Urz
Ģ
dzenie do automatycznego rozwi
Ģ
zywania homonimii to analizator morfologiczny.
Musi on opiera
ę
si
ħ
na rygorystycznym opisie gramatycznym danego j
ħ
zyka. Dorobek
gramatyczny j
ħ
zykoznawstwa tradycyjnego, z gramatykami Doroszewskiego, Szobera czy
Klemensiewicza na czele, nie spełniał oczywi
Ļ
cie warunków pełno
Ļ
ci i jawno
Ļ
ci. Polszczyzna
doczekała si
ħ
jednak szcz
ħĻ
liwie zadowalaj
Ģ
cych opisów morfologicznych i składniowych –
wymie
ı
my prace Jana Tokarskiego (SJP Dor. z tzw. „notacj
Ģ
Tokarskiego”, Tokarski (1973) i
(1990)), Zygmunta Saloniego (1992), (2004), Saloniego i
ĺ
widzi
ı
skiego (2001),
Włodzimierza Gruszczy
ı
skiego (1989), Janusza Stanisława Bienia (1991), a tak
Ň
e, z innej
szkoły, morfologi
ħ
z
Gramatyki j
ħ
zyka polskiego PAN
(Gramatyka_PAN (1984)). Morfologi
ħ
mo
Ň
na ju
Ň
było zaimplementowa
ę
.
Istnieje kilka analizatorów morfologicznych. U schyłku lat 1980. powstał analizator
Roberta Wołosza, znany dzi
Ļ
pod nazw
Ģ
PoMoR
(por. Wołosz (2005)), analizator
SAM
Krzysztofa Szafrana (1994),
Morfeusz
Marcina Woli
ı
skiego (2004a), w ko
ı
cu –
AMOR
Joanny Rabiega-Wi
Ļ
niewskiej i Michała Rudolfa (2003). Analizatory te przypisuj
Ģ
słowom
zbiory interpretacji gramatycznych.
Analizator dostaje słowo lub list
ħ
słów do interpretacji.
AMOR
na przykład
zinterpretuje słowo
jutro
jako nale
ŇĢ
ce do leksemu przysłówkowego
JUTRO
1
lub
rzeczownikowego
JUTRO
2
, czyli dokona rozpoznania cz
ħĻ
ci mowy (
PoS-tagging
) oraz
rozpoznania leksemu, do którego forma wyrazowa o takim kształcie nale
Ň
y (
lemmatization
);
słowo
szkoły
– jako reprezentuj
Ģ
ce cztery formy wyrazowe: dopełniaczow
Ģ
w liczbie
pojedynczej b
Ģ
d
Ņ
mianownikow
Ģ
, biernikow
Ģ
albo wołaczow
Ģ
w mnogiej; słowo
czytali
–
jako form
ħ
wyrazow
Ģ
czasownika
CZYTA
Ę
z pewnym opisem gramatycznym. Program, który
zwraca analizowany tekst z odpowiednimi znacznikami poprzypisywanymi wszystkim
słowom, nazywany bywa tagerem (
tagger
), a efektem pracy takiego programu jest tekst (czy
korpus) znakowany. Na korpusie, znakowanym lub nie, pracuj
Ģ
dopiero zaawansowane
wyszukiwarki.
Ostatnio zako
ı
czyły si
ħ
dwa projekty naukowo-badawcze, których celem było ju
Ň
to
zbudowanie korpusu znakowanego, ju
Ň
to opracowanie narz
ħ
dzi do obsługi korpusu.
Pierwszy z nich realizowany był w Instytucie Podstaw Informatyki PAN pod
kierunkiem Adama Przepiórkowskiego. W ramach projektu
KBN 7T11C 043 20
powstał w
latach 2001-2004 100-milionowy anotowany korpus tekstów polskich (Korpus_IPI_PAN),
który nie ma ambicji bycia korpusem lingwistycznie reprezentatywnym, czyli na przykład
zrównowa
Ň
onym; powstała te
Ň
wyszukiwarka
Poliqarp
(por. Przepiórkowski (2004)).
Oto pokaz wyszukiwania:
Plik z chomika:
hopcia81
Inne pliki z tego folderu:
11.jpg
(172 KB)
10.jpg
(241 KB)
9.jpg
(306 KB)
8.jpg
(254 KB)
7.jpg
(274 KB)
Inne foldery tego chomika:
wykazy publikacji
Zgłoś jeśli
naruszono regulamin