ptin4-03.pdf

(92 KB) Pobierz
Autoreferat do PTIN.doc
Marek Nahotko
Metadane jako narzędzie opracowania elektronicznych zasobów
sieciowych 1 .
Przedmiotem pracy doktorskiej są metadane - nowe narzędzie służące opracowaniu
dokumentów elektronicznych, szczególnie udostępnianych w sieciach komputerowych. Zde-
finiowane zostały one jako ustrukturyzowane, czytelne maszynowo dane zawierające cha-
rakterystykę cyfrowych obiektów informacyjnych, służącą ich efektywnemu oraz traf-
nemu wyszukiwaniu, szczególnie w wielkich zasobach informacji w Internecie, zarzą-
dzaniu nimi i ich wartościowaniu .
Celem pracy było zbadanie przydatności stosowania metadanych do opracowania
obiektów cyfrowych. Zrealizowano go poprzez badanie dostępnej literatury opisującej przy-
kłady funkcjonowania systemów opartych na metadanych wykorzystywanych jako narzędzia
służące opisowi danych. W pracy skoncentrowano się głównie na schematach metadanych
stosowanych dla dokumentów tekstowych, gromadzonych w bibliotekach, także cyfrowych.
O innych typach dokumentów, jak np. multimedia czy informacja geoprzestrzenna, jedynie
wspomniano. W przyszłości należałoby jednak zbadać także zagadnienia dotyczące metada-
nych dla wszystkich typów dokumentów.
Autor pracy postawił tezę, że uporządkowanie zasobów internetowych i ich efektyw-
ne przeszukiwanie jest możliwe. Często implementacja nowych technologii wywołuje pro-
blemy, które jednak w coraz większym stopniu rozwiązywane są przez te same technologie.
Podobnie jest w dziedzinie sieci rozległych – rozwijane, coraz lepsze technologie wykorzy-
stywane są także do porządkowania zawartych w nich treści. Druga teza przyjęta przez auto-
ra pracy mówi, iż uporządkowanie Internetu nastąpi przez zastosowanie nowych rozwiązań
technologicznych, pozwalających osiągnąć odpowiednią efektywność wyszukiwania doku-
mentów o żądanych cechach.
Przeprowadzone badania literatury światowej świadczą o prawdziwości przedstawio-
nych tez . Należy jednak podkreślić, że metadane są tylko niewielkim wycinkiem działań słu-
żących realizacji tego zadania, a do jego pełnego wykonania droga jeszcze daleka.
Dla udowodnienia prawdziwości postawionych tez ograniczono się do zaprezentowa-
nia jednego, wybranego z wielu stosowanych, rozwiązania służącego tworzeniu opisu doku-
1 Marek Nahotko: Metadane jako narzędzie opracowania elektronicznych zasobów sieciowych. Praca doktorska
wykonana pod kierunkiem dr hb. Wandy Pindlowej. Obroniona na Uniwesytecie Wrocławskim, Wydz. Filolo-
giczny 20 maja 2003 r. Recenzenci: dr hab. Barbara Sosińska-Kalata (UW), dr hab. Marta Zlat (UWr). Wrocław
2003, 346 ss, bibliogr. 774 poz.
1
mentów elektronicznych. Chociaż pod uwagę wzięto sieci rozległe, a przede wszystkim Inter-
net, to dla celów badawczych wykorzystano wewnętrzną sieć przedsiębiorstwa – Intranet.
Może on być traktowany jako model funkcjonowania Internetu, gdyż działają w nim wszyst-
kie narzędzia i techniki stosowane w tej sieci rozległej. W sieci lokalnej łatwiej badać zacho-
dzące procesy, gdyż:
• skala zjawisk jest mniejsza, bo ograniczona do procesów zachodzących w jednym przed-
siębiorstwie,
• przebiegi czynności, zakresy kompetencji i odpowiedzialności są ściśle określone.
Intranet jest więc małym Internetem, ale posiada dwie ważne cechy odróżniające:
rozmiar (mniejszy) i uporządkowanie (większe). Pomimo tego, że w pracy omawia się głów-
nie problemy dotyczące zastosowania metadanych w sieciach (przede wszystkim rozległych),
to wiele przedstawionych problemów i rozwiązań dotyczy także dokumentów elektronicz-
nych dostępnych lokalnie (np. na CD-ROM). Dzieje się tak we wszystkich przypadkach,
gdzie tryb dostępu nie odgrywa zasadniczej roli.
Postawiono następujące pytania badawcze , szukając na nie odpowiedzi w trakcie
analizy piśmiennictwa, tworzenia modelu schematu metadanych oraz oceniania przeprowa-
dzonego studium przypadków:
1. Czy metadane są narzędziem odpowiednim do tworzenia charakterystyk zasobów siecio-
wych, pozwalającym na ich właściwy dobór z punktu widzenia indywidualnych potrzeb
użytkowników.
2. Czy współczesne schematy metadanych, szczególnie te oparte na Dublin Core są przydat-
ne w opracowaniu dokumentów elektronicznych i co ewentualnie może ograniczać tę
przydatność.
3. W jaki sposób dostosować elementy metadanych do potrzeb lokalnych bez utraty możli-
wości współdziałania różnych systemów w zakresie użytkowania metadanych.
4. Jakie są możliwości zastosowania tradycyjnych metod opracowania rzeczowego zasobów
informacyjnych w schematach metadanych.
W rezultacie prowadzonych badań ustalono, że:
Ad. 1 . Metadane są odpowiednim narzędziem do tworzenia charakterystyk zasobów siecio-
wych. Ich schematy dostosowuje się do indywidualnych potrzeb użytkowników informacji
cyfrowej. Przyczynia się do tego istnienie wielkiej ilości specjalizowanych schematów meta-
danych, stworzonych przez społeczności użytkowników informacji: bibliotek, archiwów, mu-
zeów, informacji geoprzestrzennej, a także portali internetowych. Metadane, szczególnie do-
2
brze ustrukturyzowane i standaryzowane schematy, takie jak Dublin Core 2 , nabierają coraz
większego znaczenia w zastosowaniach lokalnych, dotyczących obszarów o ograniczonym
zakresie lub zasięgu. Są to dziedzinowe, internetowe systemy informacyjne (portale, szcze-
gólnie naukowe) lub lokalne Intranety poszczególnych organizacji, bez dostępu z zewnątrz
(tzn. z Internetu) lub z ograniczonym dostępem. W Internecie natomiast wciąż niełatwo zna-
leźć dokumenty zaopatrzone w metadane o starannie opracowanej strukturze. Jak wykazały
przeprowadzone badania, w dużym stopniu wykorzystywane są tam możliwości, jakie daje
struktura HTML w zakresie słabo ustrukturyzowanych metadanych (etykiety Author, De-
scription, Keywords itp. umieszczane w części <HEAD>). Niestety, poziom wykorzystania
tych nieustrukturyzowanych metadanych również jest niski. Część algorytmów kierujących
pracą wyszukiwarek z góry je pomija w obawie przed nieuczciwym wprowadzaniem termi-
nów często wyszukiwanych, a nie mających nic wspólnego z treścią opisywanej strony. Wy-
szukiwarki wykorzystują w coraz większym stopniu skomplikowane algorytmy pozwalające
na wyszukiwanie pełnotekstowe.
Ad. 2. Współczesne schematy metadanych, w tym służące do opisu dokumentów tekstowych,
takie jak Dublin Core, odgrywają coraz większą rolę w opracowaniu dokumentów elektro-
nicznych. Świadczą o tym decyzje o wykorzystaniu tych schematów, najczęściej obok forma-
tów tradycyjnych, takich jak MARC 21 3 , przez największe ośrodki bibliograficzne świata, w
tym Library of Congress 4 i OCLC 5 . Podczas realizacji nowych inicjatyw związanych z opra-
cowaniem zasobów elektronicznych (w tym sieciowych) stosuje się raczej nowe schematy
metadanych. Wynika to z dwóch powodów. Autorzy schematów metadanych typu Dublin
Core mieli nadzieję na stworzenie struktury prostej i nieskomplikowanej w użyciu, która mo-
głaby być wykorzystywana przez twórców dokumentów elektronicznych, bez potrzeby anga-
żowania bibliotekarzy. Nadzieje te spełniły się tylko częściowo. Dublin Core staje się narzę-
dziem coraz bardziej skomplikowanym, szczególnie przy użyciu syntaktyki typu XML 6 czy
RDF 7 .
Zmianie ulega charakter dokumentów udostępnianych w Internecie. Stają się coraz bardziej
wirtualne. Oznacza to, że nie istnieją one fizycznie; są tworzone na żądanie użytkownika
przez oprogramowanie komputerowe, które do ich wytworzenia używa elementów obecnych
w sieci, w zależności od aktualnych potrzeb i kontekstów np. kulturowych, językowych itp.
3
 
Do opisu tych sytuacji niezbędne są specjalnego rodzaju narzędzia, również zaliczane do me-
tadanych. Konieczne stało się też odejście od dotychczasowych paradygmatów, odpowied-
nich dla opracowania zbiorów bibliotek tradycyjnych. Dla bibliotek cyfrowych opracowano
nowe modele tworzenia rekordów bibliograficznych, uwzględniające specyfikę sieci rozle-
głych. Autorzy tych modeli czynią starania, aby przy ich pomocy opisać funkcje obu typów
bibliotek.
Ad. 3 . Współczesne schematy metadanych, szczególnie te oparte na Dublin Core Metadata
Element Set (DCMES), są dobrze przygotowane do tworzenia opisów tekstowych dokumen-
tów elektronicznych dostępnych w sieciach rozległych, a jednocześnie do przystosowania
tych ogólnych standardów do potrzeb lokalnych. Np. zasada „dumb-down” daje możliwość
współdziałania różnych schematów opartych na standardzie DCMI. Metoda łączenia różnych
standardów metadanych przez wybór użytecznych elementów z każdego z nich, na której
oparte jest tworzenie tzw. profili aplikacyjnych, pozwala na realizację własnych schematów
bez jednoczesnej utraty korzyści wynikających ze standaryzacji i współdziałania.
Metadane są zasadniczą częścią projektów związanych z tworzeniem bibliotek cyfrowych, w
tym archiwów obiektów cyfrowych. Zapewniają one możliwość współdziałania różnych ele-
mentów biblioteki cyfrowej oraz współpracę pomiędzy różnymi projektami realizowanymi w
tym zakresie. Szczególna rola przypada metadanym strukturalnym i administracyjnym.
Ad. 4 . Twórcy schematów metadanych nie zaproponowali nowych metod opracowania rze-
czowego zasobów sieciowych. W indeksowaniu treści zasobów internetowych stosowane są
te same języki informacyjno-wyszukiwawcze, które znane są z bibliotek tradycyjnych. Pro-
ponowane są rozwiązania dotyczące modyfikacji struktury tych języków (np. propozycje
przebudowy LCSH w kierunku klasyfikacji fasetowej), prowadzone są także prace nad udo-
stępnieniem elektronicznych wersji najczęściej stosowanych klasyfikacji (KDD, UKD i in.).
Jednocześnie rozwijane są prace nad nowymi sposobami opracowania rzeczowego, np. przez
zastosowanie ontologii czy automatycznego indeksowania. W strukturze schematów metada-
nych o zasięgu światowym przewidziane są elementy służące implementacji dowolnego wy-
branego narzędzia opracowania rzeczowego.
Eksperyment objął zasoby sieciowe BSiPE Energoprojekt-Kraków SA. Gdy w 2000
r. uruchomiono w tej firmie Intranet, do zarządzania i udostępniania danych w sieci lokalnej
postanowiono zastosować metadane. Decyzja ta wiązała się z przyjęciem standardu metada-
nych (tzn. zasad opisu dokumentów elektronicznych) oraz dostosowaniem go do potrzeb lo-
kalnych. Podczas tworzenia schematu metadanych zastosowano metodę polegającą na zdefi-
4
 
niowaniu własnej, nowej przestrzeni nazw . Umożliwia ona wyrażanie charakterystyk specy-
ficznych dla elektroenergetyki i projektów inżynierskich, będących najważniejszym typem
opisywanych dokumentów. Chociaż prace te realizowane były w warunkach lokalnego Intra-
netu, to jednak dzięki metodzie modelowania mogą być także wykorzystane dla badania za-
sobów Internetu.
W pracy posłużono się także metodą studium przypadków , służącą określeniu stop-
nia wykorzystania metadanych na stronach internetowych polskich i zagranicznych. Do prze-
prowadzenia analizy otrzymanych wyników niezbędne było zastosowanie metody staty-
stycznej z celowo dobraną próbą badawczą.
W pracy często posługiwano się metodyką obiektową , rozumianą jako zestaw pojęć,
notacji, modeli formalnych, języków i sposobów postępowania służących do analizy rzeczy-
wistości stanowiącej przedmiot projektowanego systemu informacyjno-wyszukiwawczego.
Metodyka ta stosowana jest obecnie powszechnie m.in. do analizy i projektowania systemów
informatycznych, w tym także zagadnień metadanych.
Kolejna zastosowana metoda to analiza i krytyka piśmiennictwa przede wszystkim
anglojęzycznego, a w następnej kolejności polskiego. Jej użycie pozwoliło na możliwie wie-
loaspektowe przedstawienie zagadnień metadanych. Taki sposób prezentacji wynika z tego,
że problemy metadanych nie znalazły dotąd właściwego odzwierciedlenia w polskiej literatu-
rze z zakresu bibliotekoznawstwa i informacji naukowej. Analiza prac w języku angielskim
jest wystarczająca, gdyż materiały o metadanych w innych językach publikowane są incyden-
talnie, a ponadto często mają swoje anglojęzyczne odpowiedniki.
Sytuacja ta była przyczyną pewnych problemów terminologicznych : często dla okre-
ślenia zagadnień związanych z metadanymi brak nazw w języku polskim. Przyjęto zasadę,
że jeśli tylko jest to możliwe, używa się polskiej terminologii. W przypadkach, gdy
w literaturze przedmiotu i odpowiednich słownikach tematycznych pojawia się zapożyczenie
z języka angielskiego, używane jest ono również w tej pracy (np. „hiperlink”, „klikanie” czy
„interfejs”). Jeżeli autor posłużył się polskojęzycznym terminem, który nie zaistniał dotych-
czas w pracach z zakresu bibliotekoznawstwa i informacji naukowej lub gdy jego użycie mo-
że budzić wątpliwości, obok wersji polskiej w nawiasach podana jest nazwa anglojęzyczna.
Nie tłumaczone pozostawiono nazwy elementów języków HTML, XML i RDF, gdyż ich pol-
skie odpowiedniki nie są używane. Elementy Dublin Core natomiast mają swoje polskie wer-
sje językowe i są one w pracy konsekwentnie stosowane.
Wykorzystana literatura to w większości dokumenty elektroniczne udostępniane
w Internecie. Pomimo tego, że tematyka metadanych rozwijana jest dopiero od około 10 lat,
5
Zgłoś jeśli naruszono regulamin